Cette thèse est consacrée à la reconnaissance automatique de la parole. Elle invite le lecteur à un périple à travers ce vaste domaine de recherche. Une thèse ne suffit malheureusement pas à parcourir ce thème dans ses moindres détails. D’une part, la reconnaissance de la parole touche à de nombreux domaines comme le codage et la synthèse de parole mais aussi le traitement du signal, la phonétique, la phonologie, l’intelligence artificielle, l’apprentissage...Dans un premier temps nous délimiterons donc la région à parcourir. D’autre part ce document ne peut pas couvrir exhaustivement l’étendue des travaux entrepris dans ce domaine depuis plusieurs dizaines d’années. Ces recherches ont encore un bel avenir devant elles et cette thèse atteindra son but si elle suscite chez le lecteur l’envie de poursuivre l’étude de la reconnaissance de la parole.
Délimitons maintenant les frontières de la région à explorer. D’une part la parole est un canal de communication qui transmet beaucoup d’informations et pas uniquement une suite de phonèmes. Parmi elles, il y en a qui concernent le locuteur comme son sexe, son état émotionnel, son âge, son accent...La reconnaissance et l’identification du locuteur [1] utilisent ces informations entre autres. La parole transmet aussi une suite de mots dans une certaine langue. On peut donc créer des applications qui déterminent la langue du locuteur [2], [3], [4], ainsi que des logiciels de dictée automatique comme DragonDictate.... Mais elle est aussi le moyen de transmettre ses intentions, exprimées à l’aide de mots et de l’intonation donnée à la phrase. On touche là au domaine de la compréhension de la parole qui doit permettre un véritable dialogue oral entre l’homme et la machine. On peut considérer les applications de commande vocale où l’homme donne des ordres à la machine souvent exprimés sous forme de verbes à l’impératif comme des cas dégénérés de ce problème.
Cette thèse abordera les domaines de la commande et de la dictée automatique, à travers les deux expériences décrites respectivement dans les chapitres 3 et 4. La première expérience porte sur la reconnaissance de mots. La deuxième s’apparente au codage articulatoire évoqué par Flanagan [5] « Consider a phonemic transmission of speech ; that is, the written equivalent of the meaningfully distinctive sounds of speech. Take english for example...The written equivalent of the information is therefore less than 50 bits/s ». Dans cette expérience, nous essayons de retrouver la dynamique des articulateurs à partir du signal acoustique et de l’utilisation d’un modèle articulatoire qui exploite explicitement le fait que la parole est produite par un conduit vocal.
Les difficultés rencontrées lors de la reconnaissance de parole peuvent être classées selon les axes suivants :
– la taille du vocabulaire et sa complexité (mots phonétiquement proches, par exemple l’e-set),
– le niveau de bruit ambiant (SNR : Signal to Noise Ratio, rapport signal/bruit), l’existence d’un modèle du bruit,
– le nombre de locuteurs à reconnaître (mono, multi, omni), leurs caractéristiques (sexe, âge, accents régionaux...). Dans les deux expériences, le milieu n’est pas bruité. La reconnaissance des mots utilise un petit vocabulaire et veut être indépendante du locuteur. La deuxième étude porte sur le décodage « acoustico-phonétique » en utilisant un modèle articulatoire. Celui-ci est propre à un locuteur. Aucun vocabulaire n’est utilisé : des problèmes de représentation du lexique en fonction de variables articulatoires sont en effet à prendre en compte. Ceci devrait permettre de reconnaître à terme un très grand vocabulaire. Aussi, bien que le modèle soit dédié à un locuteur particulier, il est possible d’adapter un modèle articulatoire à partir du signal acoustique comme Payan et Perrier [6]. On peut aussi envisager d’utiliser plusieurs modèles (pour les hommes, les femmes ou les enfants) simultanément.
Cette thèse comporte cinq chapitres. Après cette introduction nous tenterons de présenter les techniques les plus utilisées en reconnaissance de parole : il s’agit de différents traitements appliqués au signal acoustique ainsi que des multiples architectures parfois combinées permettant de reconnaître des mots ou de faire du décodage acoustico-phonétique. Là encore il faut remarquer que l’apparition de logiciels de reconnaissance sur le marché est due en partie aux avancées concernant la puissance du matériel informatique et aux progrès de la modélisation du langage [7]. Le chapitre suivant présentera une expérience de reconnaissance de mots isolés et enchaînés multi-locuteurs pour un vocabulaire de petite taille en utilisant des automates d’états finis. Inspirée des travaux de Joseph Di Martino [8], cette expérience a donné de bons résultats en reconnaissance de mots isolés. Nous tenterons d’expliquer pour quelles raisons la reconnaissance de mots enchaînés n’a pas conduit à des résultats comparables à ceux obtenus par l’utilisation de Modèles de Markov Cachés. Nous présenterons dans le chapitre suivant la seconde expérience qui tente de retrouver la dynamique du conduit vocal (c’est-à-dire les mouvements des articulateurs, ou gestes articulatoires) à partir du signal acoustique afin d’utiliser des variables articulatoires au lieu de trames acoustiques en entrée pour les architectures classiques (Modèles de Markov, réseaux neuronaux, systèmes à base de connaissances). En effet nous pensons que les sons de la parole sont souvent mieux définis dans le domaine articulatoire que dans le domaine acoustique. Pour conclure nous tirerons un bilan des deux expériences et donnerons des pistes permettant d’améliorer les résultats obtenus.
[1] J. de Veth, G. Gallopyn, and H. Bourlard.
Limited parameter hidden markov models for connected digit speaker
verification over telephone channels.
In ICASSP-93, volume 2, pages 247-250, Minneapolis, April
1993.
[2] Y. K. Muthusamy and R. A. Cole.
A review of research in automatic language identification.
Technical report, Center for Spoken Language Understanding, Oregon
Graduate Institute of Science and Technology, 1992.
[3] F. Pellegrino and R.-A. Obrecht.
Stratégies en identification automatique des langues. vers une
classification automatique des systèmes vocaliques.
In JEP-96, pages 409-412, Avignon, June 1996.
[4] R. Kneser and J. Peters.
Semantic clustering for adaptive language modelingi.
In Proc. of ICASSP, pages 779-782, 1997.
[5] J. L. Flanagan.
Speech Analysis Synthesis and Perception.
Springer-Verlag, New-York, 1972.
[6] Y. Payan and P. Perrier.
Vowel normalization by articulatory normalization : First attempts for
vowel transitions.
In Proc. of the 3rd European conference on Speech communication
and technology, volume 1, pages 417-420, Berlin, 1993.
[7] T. R. Nielser and P. C. Woodland.
Variable-length category-based <IMG
WIDTH="11" HEIGHT="12" ALIGN="BOTTOM" BORDER="0"
SRC="img381.png"
ALT="$n$">-grams for language modelling.
Technical report, Cambridge Univ. Engineering Department, Trumpington
Street, Cambridge, CB2 1PZ, April 1995.
[8] J. Di Martino.
Contribution à la reconnaissance globale de la parole : Mots isolés
et mots enchaînés.
Thèse de 3ème cycle, 1984.