Résumé–Sommaire

5. Conclusion et perspectives

Ce document a tout d’abord présenté les traitements acoustiques les plus couramment utilisés en vue de reconnaître la parole ; basés sur la transformée de Fourier ou la prédiction linéaire, ils sont utilisés pour extraire des indices permettant de classifier les différents sons de parole ou comme un simple moyen de représenter de manière concise l’information pertinente pour la RAP. Cependant d’autres représentations existent. Heitz et Becker [1] utilisent ainsi une représentation temps-fréquence qui réduit un signal de parole à un ensemble de points interprétables aussi bien pour les sons stationnaires que les sons non stationnaires.

Nous avons ensuite décrit quelques architectures et les différents principes appliqués aux problèmes spécifiques de la reconnaissance de la parole. Ainsi, le principe de la programmation dynamique utilisé dans les premiers systèmes de reconnaissance permet de prendre en compte les différences de durée lors de diverses prononciations d’un mot. Il a été repris dans l’algorithme de Viterbi pour les modèles de Markov. Mais ces derniers ont l’avantage de disposer d’un algorithme d’apprentissage qui permet d’ajuster automatiquement les paramètres du modèle à partir d’exemples. Les réseaux neuromimétiques disposent eux aussi de tels algorithmes, qui conduisent à des modèles fortement discriminants. Mais il est plus difficile de modéliser les dilatations temporelles de la parole dans ce cadre. C’est pourquoi ils sont souvent couplés aux autres architectures. D’un autre côté, l’approche analytique consistant à rechercher des invariants dans le signal acoustique puis à modéliser l’expertise humaine a beaucoup contribué à une meilleure compréhension des problèmes de perception et compréhension de la parole. Ces architectures pourront être utilisées avec des paramètres articulatoires issus d’une inversion au lieu d’utiliser directement le signal acoustique. Ainsi, Li Deng [2] utilise déjà un modèle de Markov dont les états renferment des informations articulatoires. Les réseaux neuromimétiques pourront servir à apprendre la relation inverse comme cela est fait par George, Jospa et Soquet [3] entre autres.

Le chapitre suivant a détaillé les premières expériences. Quoique basées sur des travaux anciens, elles permettent d’obtenir pour les mots isolés et en l’absence de bruit des taux de reconnaissance tout à fait honorables et comparables à ceux obtenus à l’aide de modèles de Markov. En revanche, la reconnaissance de mots enchaînés n’a pas abouti à des taux de reconnaissance équivalents. L’estimation statistique des paramètres acoustiques du modèle semble donc favorable à la prise en compte de certains effets de coarticulation. Malgré cela, lorsque le vocabulaire est de grande taille, les modèles de Markov utilisant des paramètres purement acoustiques ont des difficultés à résoudre le problème de la reconnaissance de phrases indépendamment du locuteur. Ainsi les premiers logiciels grand public se voulant par définition indépendants du locuteur ont laissé place à des systèmes « facilement entraînables par n’importe quel locuteur ». Pour cela l’utilisateur doit prononcer des phrases qui permettent au système de ré-estimer les paramètres du modèle.

La variabilité acoustique de la parole, et en particulier celle due aux effets de coarticulation, est mieux appréhendée par la modélisation de sa production. En effet, la parole n’est pas un signal acoustique quelconque et les contraintes anatomiques peuvent expliquer les effets de coarticulation, par exemple, dans le cadre de la phonologie articulatoire. Par ailleurs, des expériences confirment le fait que la prise en compte d’informations articulatoires (reconnaissance multimodale, par exemple en filmant le visage du locuteur) améliore sensiblement les taux de reconnaissance. C’est pourquoi la deuxième série d’expériences a porté sur l’utilisation d’un modèle articulatoire. Dans le cadre de la reconnaissance de la parole, il s’agit de retrouver les paramètres du modèle à partir du signal acoustique : c’est le problème de l’inversion acoustique-articulatoire. Avant de présenter quelques méthodes de résolution de ce problème, nous avons décrit les équations acoustiques régissant l’état de l’air dans le conduit vocal, puis nous avons présenté brièvement quelques modèles. Celui de Maeda a été retenu pour ses qualités anthropomorphiques et le nombre réduit de paramètres qui le contrôlent. Or il a été construit à partir d’images aux rayons X d’une locutrice. Nous avons donc commencé par l’adapter à partir d’images IRM d’un locuteur. Les premières difficultés rencontrées tiennent à la nature différente des images utilisées et à l’impossibilité d’exploiter la parole produite durant l’acquisition des images. Cependant, Mohommad et al. [4] ont récemment proposé une technique pour filmer le conduit vocal en mouvement.

La mesure des tailles du pharynx et de la bouche sur les images a conduit à des valeurs conformes à la littérature. Mais cette étape n’a pas suffit à remplir les critères de qualité considérés qui sont, d’une part, une bonne couverture par le modèle de l’espace vocalique du locuteur et d’autre part, une bonne fidélité du modèle. Nous avons donc modifié le contour extérieur du conduit vocal à partir des images IRM ce qui a sensiblement amélioré la qualité. Enfin, nous avons abordé le problème du passage de la coupe sagittale à la fonction d’aire. Au lieu de modifier encore les coefficients de Heinz et Stevens, nous avons opté pour une optimisation du contour extérieur puisque le peu d’images en notre possession ne nous a pas permis de le considérer comme parfaitement digne de confiance. Le passage de la fonction d’aire à la coupe sagittale, étudié par Lecuit dans [5], est un épineux problème qui pourra se résoudre grâce à l’amélioration de la qualité des images. En effet, l’utilisation de profils sagittaux est dû en grande partie au fait que seules des images aux rayons X étaient disponibles. Stone [6] a classifié les voyelles en utilisant une coupe transversale dans la région du palais. Ainsi, les profils des coupes sagittales et transversales permettent de classifier les voyelles. Cependant Story et al. [7] ont mesuré le volume total du conduit vocal en utilisant l’imagerie IRM pour des sons stationnaires. Or ils mettent en évidence le besoin de modèles physiques plus précis. En effet, une concaténation de tubes ne suffit pas pour rendre compte de la forme du conduit vocal lors de la prononciation d’un /l/ par exemple.

Après toutes ces adaptations, le modèle est capable de produire les voyelles du locuteur, et la parole produite à partir des paramètres extraits des images est assez proche de celle du locuteur. Nous avons donc pu entreprendre l’inversion. La méthode proposée est basée sur le calcul variationnel et permet d’optimiser une solution initiale en tenant compte simultanément des contraintes acoustiques et articulatoires. La première étape de l’inversion a été la recherche d’une solution initiale. Pour cela nous avons construit des dictionnaires de formes articulatoires et sélectionné un ensemble de trajectoires articulatoires potentielles qui correspondent à un signal proche de celui prononcé. La diversité des trajectoires possibles correspond à la capacité du modèle à prendre en compte les effets de compensation. Puis nous avons utilisé le lissage non-linéaire de Ney pour choisir parmi cet ensemble une trajectoire assez régulière. Nous avons ensuite décrit l’algorithme d’optimisation. Les résultats obtenus montrent qu’il est possible d’obtenir une trajectoire articulatoire lisse et dans le même temps une bonne correspondance entre les formants de synthèse et les formants extraits du signal, et ceci sans imposer de formule analytique ni de conditions portant sur les positions des articulateurs aux extrémités du segment temporel sur lequel s’effectue l’inversion. Yehia et Itakura [8] ont aussi utilisé une méthode combinant des contraintes acoustiques et articulatoires dans un même espace de paramètres. Ils soulignent le besoin d’inclure des contraintes dynamiques. Dans notre approche, ceci se traduira par une évaluation des pseudo-masses et pseudo-constantes de raideur.

Si l’on souhaite se placer dans le cadre de la dynamique des tâches [9],|[R.S. McGowan.

Recovering articulatory movement from formant frequency trajectories
using task dynamics and a genetic algoritm : Preliminary model tests.

Speech Communication, 14:19-48, 1994.
]], [10], il faudra ensuite interpréter les combinaisons de paramètres articulatoires contrôlant le modèle en termes de variables articulatoires pertinentes au niveau psychoacoustique (endroits et degrés des points de constriction dans le conduit vocal en fonction de paramètres du modèle de Maeda). Il faudra ensuite déterminer les trajectoires de ces variables et leurs instants d’activation. Les différentes synchronisations possibles expliquant la variabilité de coarticulation.

On pourra aussi simplement utiliser directement les paramètres articulatoires pour effectuer une reconnaissance « multimodale » de la parole. Au lieu de filmer le conduit vocal en mouvement, on utiliserait les résultats de l’inversion...

Notes

[1] C. Heitz and J. D. Becker.

An optimized time-frequency distribution for speech analysis.

Speech Communication, 1994.

[2] L. Deng and D. X. Sun.

A statistical approach to automatic speech recognition using the
atomic speech units contructed from overlapping articulatory features.

J. Acoust. Soc. Am, 95(5):2702-2719, May 1994.

[3] M. George, P. Jospa, and A. Soquet.

Estimation de trajectoires articulatoires à l’aide d’un réseau de
neurones.

In XXèmes Journées d’Etude sur la Parole, pages 427-432,
Trégastel, France, June 1994.

[4] M. Mohommad, E. Moore, J. N. Carter, C. H. Shadle, and S. J. Gunn.

Using mri to image the moving vocal tract during speech.

In Proc. of EuroSpeech, pages 2027-2030, 1997.

[5] V. Lecuit.

Conséquences acoustiques du passage de la coupe sagittale à la
fonction d’aire.

In XXIèmes JEP, pages 75-78, Avignon, June 1996.

[6] M. Stone, M.H. Goldstein Jr., and Y. Zhang.

Principal component analysis of cross sections of tongue shapes in
vowel production.

In 1st ESCA Tutorial and Research Workshop on Speech
Production Modeling : From Control Strategies to Acoustics & 4^th Speech
Production Seminar : Models and Data, pages 37-40, Autrans, France, 1996.

[7] B. H. Story, I. R. Tize, and E. A. Hoffman.

Vocal tract area functions from magnetic resonance imaging.

Journal of Acoustical Society of America, 100(1):537-553, July
1996.

[8] H. Yehia and F. Itakura.

A method to combine acoustic and morphological constrints in the
production inverse problem.

Speech Communication, 18:151-174, 1996.

[9] R.S. McGowan and M. Lee.

Task dynamic and articulatory recovery of lip and velar
approximations under model mismatch conditions.

J. Acoust. Soc. Am., 99:595-608, January 1996.

[10] E.L. Saltzman and K.G. Munhall.

A dynamical approach to gestural petterning in speech production.

Ecological Psychology, 14:333-382, 1989.