La transcription par reconnaissance vocale : oui, mais...

À l’heure de l’intelligence artificielle et de la technologie, on pourrait croire que les machines peuvent tout faire et notamment, transcrire automatiquement dans un logiciel de traitement de textes le contenu de nos échanges, débats, réunions. Mais les capacités de la machine sont limitées et l’intervention humaine reste indispensable. De quelles performances les logiciels de transcription par reconnaissance vocale sont-ils capables et en quoi sont-ils limités ?

Un principe très prometteur et des applications efficaces

La reconnaissance automatique de la parole, ou reconnaissance vocale, est une technique informatique qui permet d’analyser la voix humaine captée au moyen d’un microphone pour la transcrire sous la forme d’un texte exploitable par une machine afin de la transformer en requête informatique. Au fur et à mesure qu’ils effectuent des tâches de reconnaissance vocale, les systèmes qui intègrent l’intelligence artificielle génèrent plus de données sur la parole humaine et s’améliorent dans ce qu’ils font.

Tout le monde connaît des applications courantes de cette technique : serveur vocal interactif, assistant intelligent (Siri, Alexa, Google Assistant…), mais aussi dictée vocale sur ordinateur. De très nombreux médecins dictent par exemple leurs comptes rendus d’examens sur un enregistreur et les font transcrire ensuite par un logiciel de traitement de texte. Il ne reste que quelques petites corrections à apporter – puisque le lexique du logiciel a généralement été alimenté avec le jargon ad hoc –, les coordonnées du patient et du prescripteur à compléter, et le compte rendu est prêt !

Alors, pourquoi ne pas confier à un de ces logiciels la transcription automatique de vos réunions de CSE, d’instances paritaires, d’assemblées territoriales et autres colloques ou conseils d’administration et leur laisser le soin d’en réaliser le procès-verbal ou le compte rendu ? Vous lancez votre logiciel, vous déroulez le fichier audio de l’enregistrement de la réunion, vous laissez tourner et vous obtenez un document écrit réputé rendre compte de votre réunion. Ne serait-ce pas un gain de temps et d’argent ?

Eh bien non… Le document que vous obtenez est à peu près illisible.

Un système non approprié à la transcription de réunions

La transcription par reconnaissance vocale rencontre encore de nombreuses limites, en effet, qui nécessitent l’intervention de l’intelligence humaine. Elle est loin d’être performante pour la transcription de réunions.

En premier lieu parce que cette technologie repose sur la voix : c’est en analysant la voix qu’elle est censée améliorer le taux de reconnaissance de la parole et donc, sa traduction à l’écrit. Dès lors, elle suppose, pour être efficace, la concomitance de plusieurs conditions et notamment :

un enregistrement de grande qualité, sans bruits de fond ni parasites, sans réverbération, donc un son pris en régie,
et la connaissance des voix qui s’expriment, avec toutes leurs spécificités (accent, articulation, intonations…)

Dans des réunions à intervenants multiples, ces conditions ne sont pas réunies.

En second lieu, parce que le logiciel, s’il reconnaît un son, ne reconnaît pas un sens, une signification. Même avec une base lexicale extrêmement bien alimentée, voire enrichie manuellement du vocabulaire propre à votre domaine d’activité, l’ordinateur ne « comprend » pas. En outre, il ne maîtrise pas les tournures de phrases, la syntaxe, la ponctuation, les subtilités de la langue française. Pour peu que l’élocution ne soit pas claire, il transcrira les sons qui lui sont envoyés en cherchant dans sa base de données ce qui en approche le plus. Le logiciel ne « rédige » pas.

Un gain de temps et d’argent ? Non. Outre la durée du traitement du fichier audio par le logiciel (au moins égale à la durée de l’enregistrement, sinon supérieure, selon le logiciel), le résultat est tellement imparfait que les corrections à apporter, d’après notre expérience, peuvent mobiliser, pour une seule heure de réunion, jusqu’à quatre heures et demie de temps de travail de la part d’un relecteur correcteur expert, qui devra reprendre tout le texte en écoutant le son.

Un « support » à la rédaction

Dans ces conditions, le recours à ce type de logiciel ne peut pas se faire directement. Les rédacteurs de Résumémo l’utilisent parfois de façon indirecte, en substituant leur propre voix à l’ensemble des locuteurs. Cela leur évite la frappe au clavier, qui, pour des dossiers denses, où les interlocuteurs parlent beaucoup et très vite, peut être fatigante.

L’exercice, pour le rédacteur, consiste à répéter, en les écoutant, tous les propos tenus par les participants à la réunion, et c’est sa voix unique qui est donnée à entendre en direct au logiciel.

Ce faisant – et c’est l’illustration de toutes les insuffisances des systèmes qui existent à ce jour –, le rédacteur doit parler très distinctement. Il doit énoncer chaque point, chaque virgule, chaque parenthèse, chaque guillemet… Il doit épeler les acronymes, stipuler les mots à faire figurer en majuscules, commander un retour à la ligne… Il peut réécouter les passages peu audibles et reformuler immédiatement une tournure incorrecte. Ce travail demande beaucoup de rigueur et de méthode.

Le logiciel s’habitue à la voix du rédacteur, à ses intonations, à son élocution et à son articulation. Il améliore ainsi le taux de reconnaissance de la parole. Le rédacteur peut lui-même y contribuer et enrichir le vocabulaire du logiciel en enregistrant de nouveaux mots dans le dictionnaire de celui-ci avec leur prononciation. Dans ces conditions, le logiciel parvient à reconnaître jusqu’à 95 % des mots qu’il entend.

Cela n’exonère néanmoins pas le rédacteur d’une relecture intelligente avec à nouveau l’écoute du fichier audio. En effet, le logiciel, à défaut de comprendre le sens, peut s’être trompé sur la transcription du son. Il écrit très souvent : « et » au lieu de « est », ou bien « de » au lieu de « deux », « ses » au lieu de « ces », « entend que » au lieu de « en tant que », par exemple. Il peut aussi avoir mal orthographié des noms propres et commis des fautes de grammaire.

C’est enfin à cette étape de réécoute et de relecture que le rédacteur, comme pour chaque rédaction de procès-verbal et de compte rendu, effectue les recherches documentaires sur d’éventuelles incertitudes qu’il pourrait avoir sur sa propre compréhension d’informations qui ne lui seraient pas connues.

Voilà pourquoi la machine est loin d’être en mesure de remplacer l’homme dans cet exercice, et voilà pourquoi les rédacteurs de Résumémo continuent à apporter leur expertise et leur valeur ajoutée à la réalisation des comptes rendus et procès-verbaux de vos réunions. N’hésitez pas à les solliciter !

La transcription par reconnaissance vocale : oui, mais...

Écrivez-nous !

info@resumemo.com

La transcription par reconnaissance vocale : oui, mais...

Des projets inspirants et audacieux

Les deux budgets du CSE

99 % de nos clients et 100 % de nos rédacteurs recommandent Résumémo !

Durée des mandats de la délégation du CSE