La reconnaissance vocale est morte : pet à son âme

Le 10 novembre 2010 Dr Goulu

La reconnaissance vocale était très prometteuse à la fin des années 90 mais le taux d’erreur de mots plafonne à 10% depuis 2001, soit environ le triple du taux d’erreur d’un être humain.

D’après “2001 l’Odyssée de l’Espace”, nos ordinateurs devraient comprendre notre voix depuis 9 ans. Depuis 1997, on trouve des logiciels de reconnaissance vocale pour PC, et depuis peu nos téléphones disposent de cette fonction. Mais on ne l’utilise pas. Je ne connais personne qui dicte ses e-mails, et vous ?

Comme tous les geeks j’ai essayé de temps en temps, parfois passé une heure à lire des textes d’apprentissage de la voix la plus monocorde possible à la nouvelle version d’un soft, et puis abandonné devant ses piètres performances. Ça ne marche pas, ou pas assez bien.

Robert Portner analyse cet échec dans ”Rest in Peas: The Unrecognized Death of Speech Recognition“, titre subtilement traduit en français dans le présent article.

Le problème, c’est qu’après une phase de progrès rapides à la fin du siècle passé, le taux d’erreur de mots plafonne à 10% depuis 2001, soit environ le triple du taux d’erreur d’un être humain. Et encore, c’est pour l’anglais “standard”. Le taux d’erreur est bien plus élevé pour d’autres langues, et catastrophique pour une conversation entre supporters de foot à la sortie du match. (Voir l’évolution du taux d’erreur de mots du National Institute of Standards and Technology).

Pourtant dans les années 1990, des systèmes très fiables avaient été mis au point pour distinguer quelques mots bien choisis dans des cockpits d’avion ou des chiffres au téléphone, et on s’était légitimement attendus à ce que la Loi de Moore permette de traiter rapidement le langage naturel.

Et effectivement, aujourd’hui on sait bien reconnaitre des mots isolés. On sait à peu près éliminer les absurdités non conformes à la grammaire dans des phrases simples comme “le chat ment je la sous rit.” Mais pour distinguer entre “le chas mange la souris”, ”le chat mange là, sous l’riz” et ”le chaman gela, sourit” et , il faut comprendre le sens de la phrase, voire le contexte dans lequel elle est prononcée…

Si l’ordinateur doit connaitre la différence entre un quadrupède carnivore et le trou d’une aiguille pour traiter une phrase triviale, on imagine que ce n’est pas demain qu’on dictera des contrats* ou des rapports à une machine. De gros projets ont été lancés par des poids lourds de l’informatique pour tenter de modéliser la connaissance humaine.

Par exemple le projet MindNet de Microsoft¹ a analysé des millions de pages de textes existants pour construire un graphe sémantique gigantesque, duquel il ressort effectivement que dans une phrase comportant “chat” et “souris”, le plus probable est que le chat chasse la souris. Un tel graphe peut certainement être utile en traduction automatique car on dispose d’un texte de départ, mais pour la reconnaissance vocale il faudrait étendre le graphe à la structure des phrases utilisées en conversation courante, qui peut être bien distincte du langage écrit. Et pour faire ça automatiquement, il faudrait la reconnaissance vocale…

Comme le note Portner, on pensait au début que la reconnaissance vocale était un premiers pas vers l’intelligence artificielle. Aujourd’hui de nombreux chercheurs estiment que l’intelligence artificielle est indispensable pour atteindre une reconnaissance vocale de qualité acceptable². Les gros projets de recherche ont été abandonnés les uns après les autres, bloqués devant le mur si bien décrit par les Perlisismes sur l’intelligence artificielle comme :

“Une année de travail sur l’intelligence artificielle est suffisante pour vous faire croire en Dieu”

Le nombre de recherches sur “reconnaissance vocale” ou “Dragon Naturally Speaking” sur Google baisse régulièrement depuis 2001. Comme aucune idée fondamentalement nouvelle ne vient relancer la recherche, la reconnaissance vocale est morte, en toute discrétion.

Note : Ça me rappelle l’histoire de la secrétaire d’un célèbre ingénieur de la génération dictaphone qui avait commandé “310 mètres d’isolation entre 2 étages” au lieu de “3 centimètres” . Ça c’est avec les 2% d’erreurs de transcription humaines…

>> Article publié initialement sur le blog de Dr Goulu

>> Illustrations FlickR CC : TruShu et Loguy en CC pour OWNIsciences

Microsoft Research : MindNet [↩]
Janet M. Baker et al. “Research Developments and Directions inSpeech Recognition and Understanding“, IEEE Signal Processing Magazine [75] MAY 2009 [↩]

[vidéo] La créativité, une matière trop souvent en option

L’Europe joue à se faire cyberpeur

Facebook♥ Twitter♥ ♥ RSS

6
commentaires Fermer

Laisser un commentaire

Derniers articles publiés

Une Vive Internet! Inédit • 14 décembre 2012

[Infographie] 10 ans de Creative Commons

par Sabine Blanc

Cette semaine, Creative Commons fête ses dix ans dans le monde entier. Une décennie d'alternative à une vision maximaliste de la propriété intellectuelle qui a su conquérir le grand public. Owni, un des rares médias en CC en France, vous retrace cette histoire en une infographie interactive.

Twitter Facebook 188

creative commons, droit d'auteur, Lawrence Lessig

Graphisme Chronique • 14 décembre 2012

Charte de confidentialité : des icônes pour informer

par Geoffrey Dorne

Personne - ou presque - ne lit les politiques de confidentialité. Pour simplifier les choses et rendre compréhensible ce que fait chaque site avec vos données, designers, citoyens et experts soutenus par la fondation Mozilla ont mis en place une liste d'icônes. Tour d'horizon de l'initiative.

Twitter Facebook 223

Art, CGU, création, design, graphisme, icone, icônes, picto, pictogramme, vendredi-graphism, vie privée

droit Chronique • 14 décembre 2012

Les Creative Commons hackent le droit d’auteur !

par Lionel Maurel (Calimaq)

Toute la semaine, ce sont les dix ans des Creatives Commons. L'occasion pour notre chroniqueur Calimaq de revenir sur le projet : réussites, limites et défis à relever.

Twitter Facebook 344

#cc10, creative commons, droit d'auteur, licences libres

Une Vive Internet! Édito • 13 décembre 2012

Offrez-vous un Owni

par Media Hacker

Des milliers de témoignages de réconfort et de soutien, et beaucoup évoquant le souhait de participer financièrement. Il nous reste à déterminer si cette somme de bonnes intentions peut effectivement transformer notre modèle économique et faire vivre le média.

Twitter Facebook 602

42, financement, Internet, médias, owni

Presse Enquête • 13 décembre 2012

Google : chêne ou roseau?

par Andréa Fradin

Google et les éditeurs de presse belges ont enfin trouvé un accord. Pour Le Monde, cela veut dire que "la presse peut faire plier Google" et que les titres français peuvent espérer profiter d'un effet "boule de neige". En fait, c'est un poil plus compliqué. Explications.

Twitter Facebook 78

belgique, Copie presse, éditeurs de presse, Google, IPG, Laurent Joffrin, lex google, médiation

L'auteur

Dr Goulu

En savoir +

Tags pour cet article:

découvertes, Erreur, informatique, linguistique, reconnaissance vocale, sémantique

Du même auteur:

Quand les Simpson jouent aux scientifiques

En 20 ans, Matt Groening a eu le temps de revisiter la science à la touche Simpson. Il n'est pas rare qu'un des personnages passe à côté d'une formule mathématique complexe ou énonce lui-même des vérités scientifiques.

139

La science vue par les Simpson

En deux décennies, les personnages de Matt Groening ont eu le temps de revisiter la science à leur façon. Il n'est pas rare qu'un des personnages passe à côté d'une formule mathématique complexe ou énonce lui-même des vérités scientifiques.

117

Bulles et couleurs de l’espace

La photo de la “Nébuleuse Bulle de Savon” est une bonne occasion de comprendre comment on colore les photos d'astronomie et comment cette coloration permet de mettre en évidence des phénomènes difficiles à voir sur l'originale.

136

Pourquoi vit-on dans un monde en 3D?

À quoi ressemblerait l'univers si le temps avait plus d'une dimension, et plus généralement, la vie serait-elle imaginable dans un univers à N≠3 dimensions?

Pourquoi 3 dimensions + 1 temps?

À quoi ressemblerait l'univers si le temps avait plus d'une dimension, et plus généralement, la vie serait-elle imaginable dans un univers à N?3 dimensions?

Voir tous les articles