Transcrire les contenus audiovisuels
Par Élie Sloïm le mardi 2 octobre 2007, 03:23 - Accessibilité - Lien permanent
A première vue, le fait de proposer la transcription texte d'un contenu audiovisuel peut paraître un effort démésuré, surtout si l'on croit que cet effort ne bénéficie qu'à quelques personnes. Citons notamment celles qui atteintes de déficiences auditives, ne peuvent accéder aux contenus sonores d'une vidéo, d'un podcast, ou encore d'une émission de radio. S'il est vrai que cette démarche est encore chère et complexe, autant savoir à qui elle profite vraiment sur le long terme.
A l'heure ou les sites de partage de vidéos comme youtube et dailymotion se développent à un rythme effréné, à l'heure où les contenus télévisuels sont de plus en plus souvent proposés sur le web (voir le site de l'Ina, d'Arte, de la plupart des chaînes de télévision...), nous sommes peut-être en train de créer une énormité : un lieu de stockage de contenus vidéos et sonores immense, qui contient des milliards d'informations audio, et dans lequel il est impossible de rechercher ce qui est dit, comment, quand et par qui ?
Prenons un exemple : le site de l'Institut National de l'Audiovisuel (INA) propose une quantité énorme d'informations. Il est possible de retrouver les vieux numéros d'Apostrophes, de retrouver les archives d'actualités, et d'un nombre vertigineux d'autres contenus sonores et visuels. Mais sur ce site comme ailleurs, si nous n'y prenons garde, combien de textes prononcés par des immenses écrivains et artistes risquent de rester dans la zone grise d'Internet comme ils l'ont été pendant longtemps dans la zone grise de la télévision ? Ne sommes-nous pas en train de passer à côté d'une chance unique qui consisterait non seulement à numériser le savoir, mais également à le rendre indexable.
Alors, je le sais bien, rendre disponible sous forme texte le contenu sonore d'une vidéo, ou encore les propos échangés lors de délibérations d'un Conseil régional n'est pas simple. Il n'empêche qu'à moyen terme, nous sommes condamnés à trouver des solutions. Les raisons sont nombreuses :
- pour les personnes handicapées,
- pour la mémoire des contenus sonores,
- pour la traçabilité des enregistrements audiovisuels
- pour faciliter l'indexation et le référencement de ces contenus,
- pour faciliter leur mutualisation et leur syndication,
- Pour faciliter leur traduction automatique ou manuelle.
Alors, bien sûr, pour les contenus que nous allons créer dans l'avenir, à chaque fois que cela sera possible, nous devrons anticiper ce besoin avant même que la vidéo ne soit tournée ou enregistrée. Nous en reparlerons certainement lorsque nous devrons travailler sur le canal télévision du référentiel général d'Accessibilité des Administrations.
Pour les contenus qui sont déjà numérisés, plusieurs solutions se présentent :
Nous pouvons soit :
- attendre que l'industrialisation soit possible (extraction du contenu textuel par reconnaissance vocale et traitement de masse),
- commencer faute de mieux à tagger, à marquer au maximum l'information - voir ce billet sur la chaîne lscenarii
- transcrire les contenus sonores, même partiellement à chaque fois que cela sera possible
Pour l'instant, il faut bien se rendre à l'évidence : cette démarche n'est pas rentable quelquefois irréaliste. Cette exigence de transcription va sans aucun doute rester un voeu pieux. Mais cela n'enlève rien au fait que la retranscription textuelle des contenus sonores bénéficierait à tout le monde, personnes handicapées ou pas.
Voici donc encore un cas où l'accessibilité aux personnes handicapées peut bénéficier à tous les utilisateurs et contribue à l'industrialisation de la production de contenus. Il y en a beaucoup d'autres.


Commentaires
A noter que la mise à disposition de sous-titres (ou de transcript à postériori) à base de reconnaissance vocale existe déjà et est utilisé dans les chaines de télévision pour le sous titrage en direct (cf la chaine parlementaire ou la bbc) www.redbeemedia.fr/access...
Je pense que l'évolution de l'industrie va dans ce sens mais il faut bien se rendre compte qu'entre mettre une vidéo à disposition et arriver à transcrire les sons en textes, c'est une autre paire de manche.
Avec tous les efforts qui passent dans la reconnaissance visuelle et audio, il y a fort à parier que dans quelques années cette retranscription soit totalement automatique. Allez, disons 5 ou 10 ans :D
A noter que Jean Louis Carvès, du Centre Accessibilité d'IBM, interviendra sur l'accessibilité des vidéos et des sous-titres lors de Paris Web 2007.
2007.paris-web.fr/Jeudi-1...
J'ajouterais que la transcription des contenus audiovisuels est nécessaire, mais ne suffit pas. En effet, 80% des sourds ne savent pas lire, leur langue natale c'est la langue des signes.
Donc idéalement, il faudrait pouvoir accompagner les contenus audiovisuels d'une version en langue des signes. La transcription textuelle pourrait être utilisé par des avatars 3D qui signeraient en langue des signes. La technologie est prête pour pouvoir le faire.
En réponse à Cedric et buh31, sans vendre la mèche je pense que ce que va présente Jean Louis ce sera :
www.alphaworks.ibm.com/te...
et
youtube.com/watch?v=RarMK...
A propos de ce la transcription automatique en langage des signes même si ibm semble bien avancé, de nombreuses associations ont de gros doute quant à la qualité finale.
Dans la langue des signes, beaucoup de choses passent par l'expression corporelle notamment au niveau du visage ce que pour l'instant ne permet pas de retranscrire les avatars 3D.
Au final, on se retrouve plus avec une traduction littérale comme peux le produire un traducteur automatique entre deux langue parlées.
Cédric Magnin a été plus rapide que moi : je souhaitais ajouter la même information :)
J'espère en tout cas que sa présentation ne se limitera pas à cet avatar 3D. Idée intéressante mais oh combien froide et désuète comparée aux expressions corporelles et celles du visage.
Buh31 a dit "J'ajouterais que la transcription des contenus audiovisuels est nécessaire, mais ne suffit pas. En effet, 80% des sourds ne savent pas lire, leur langue natale c'est la langue des signes."
C'est exact, mais encore une fois, la mise à disposition d'une transcription textuelle peut tout à fait servir d'étape en vue du traitement par une machine, un avatar, mais aussi simplement pour mettre le texte à disposition d'un traducteur humain. En gros ça ouvre le champ des possibilités.
Traducteur humain = interprète -> fatigué, moi
oui, je suis parfaitement d'accord.
A noter que Paris Web 2006 n'a jamais retranscrit à l'écrit ses conférences malgré la présence des contenus audio.
Solution : faire appel aux bonnes âmes ?
Blague à part tu as raison, c'est un vrai problème, et nous sommes loin de trouver des solutions simples et peu coûteuses.
(PS : le captcha me demande la couleur du cheval blanc de Napoléon, or tout le monde sait qu'il l'a piqué à Henry Quatre :) ).
Il existe un outil pratique en ligne qui permet de faire le sous-titrage des vidéos dans le cas de traduction: dotsub.com/ L'appel à la communauté permet de faire participer les plus motivés. L'initiative est intéressante et je voulais la souligner.
Je partage tout à fait cette note. Je crois que les gros producteurs de contenu ont pris conscience du phénomène. En Belgique par exemple, un tout nouveau projet va voir le jour au printemps 2008 sur la numérisation des productions audio et vidéo belges. C'est en quelque sorte l'INA belge. Les responsables sont occupés à numériser les données mais aussi à trouver un système d'archivage efficace. Voir le podcast de Damien: www.bloggingthenews.info/...