Transcrire les contenus audiovisuels

Le 2 octobre 2007, par Élie Sloïm - Accessibilité

Avertissement : cet article a été publié en 2007. Son contenu n'est peut-être plus d'actualité.

A première vue, le fait de proposer la transcription texte d’un contenu audiovisuel peut paraître un effort démésuré, surtout si l’on croit que cet effort ne bénéficie qu’à quelques personnes. Citons notamment celles qui atteintes de déficiences auditives, ne peuvent accéder aux contenus sonores d’une vidéo, d’un podcast, ou encore d’une émission de radio. S’il est vrai que cette démarche est encore chère et complexe, autant savoir à qui elle profite vraiment sur le long terme.

A l’heure ou les sites de partage de vidéos comme youtube et dailymotion se développent à un rythme effréné, à l’heure où les contenus télévisuels sont de plus en plus souvent proposés sur le web (voir le site de l’Ina, d’Arte, de la plupart des chaînes de télévision…), nous sommes peut-être en train de créer une énormité : un lieu de stockage de contenus vidéos et sonores immense, qui contient des milliards d’informations audio, et dans lequel il est impossible de rechercher ce qui est dit, comment, quand et par qui ?

Prenons un exemple : le site de l’Institut National de l’Audiovisuel (INA) propose une quantité énorme d’informations. Il est possible de retrouver les vieux numéros d’Apostrophes, de retrouver les archives d’actualités, et d’un nombre vertigineux d’autres contenus sonores et visuels. Mais sur ce site comme ailleurs, si nous n’y prenons garde, combien de textes prononcés par des immenses écrivains et artistes risquent de rester dans la zone grise d’Internet comme ils l’ont été pendant longtemps dans la zone grise de la télévision ? Ne sommes-nous pas en train de passer à côté d’une chance unique qui consisterait non seulement à numériser le savoir, mais également à le rendre indexable.

Alors, je le sais bien, rendre disponible sous forme texte le contenu sonore d’une vidéo, ou encore les propos échangés lors de délibérations d’un Conseil régional n’est pas simple. Il n’empêche qu’à moyen terme, nous sommes condamnés à trouver des solutions. Les raisons sont nombreuses :

pour les personnes handicapées,
pour la mémoire des contenus sonores,
pour la traçabilité des enregistrements audiovisuels
pour faciliter l’indexation et le référencement de ces contenus,
pour faciliter leur mutualisation et leur syndication,
Pour faciliter leur traduction automatique ou manuelle.

Alors, bien sûr, pour les contenus que nous allons créer dans l’avenir, à chaque fois que cela sera possible, nous devrons anticiper ce besoin avant même que la vidéo ne soit tournée ou enregistrée. Nous en reparlerons certainement lorsque nous devrons travailler sur le canal télévision du référentiel général d’Accessibilité des Administrations.

Pour les contenus qui sont déjà numérisés, plusieurs solutions se présentent :

Nous pouvons soit :

attendre que l’industrialisation soit possible (extraction du contenu textuel par reconnaissance vocale et traitement de masse),
commencer faute de mieux à tagger, à marquer au maximum l’information - voir ce billet sur la chaîne lscenarii
transcrire les contenus sonores, même partiellement à chaque fois que cela sera possible

Pour l’instant, il faut bien se rendre à l’évidence : cette démarche n’est pas rentable quelquefois irréaliste. Cette exigence de transcription va sans aucun doute rester un voeu pieux. Mais cela n’enlève rien au fait que la retranscription textuelle des contenus sonores bénéficierait à tout le monde, personnes handicapées ou pas.

Voici donc encore un cas où l’accessibilité aux personnes handicapées peut bénéficier à tous les utilisateurs et contribue à l’industrialisation de la production de contenus. Il y en a beaucoup d’autres.