4.3 Différents modèles articulatoires

Boë, Maeda et Perrier [1] ont présenté une histoire des modèles articulatoires aux
 XX^{\grave{e}mes} Journées d’Etude sur la Parole. Ils distinguent dans cet article trois types de modélisations : géométriques, physiques et articulatoires. Dans cette section, nous allons commencer par expliquer pourquoi il est préférable d’utiliser un modèle articulatoire pour générer la fonction d’aire qui intervient dans les équations acoustiques. Puis nous présenterons brièvement quelques modèles. Pour conclure, nous donnerons les raisons qui nous ont conduit à choisir le modèle de Maeda.

4.3.1 Introduction : Insuffisance des modèles de la fonction d’aire pour la reconnaissance

Comme nous l’avons vu dans la section précédente, il est possible de modéliser le conduit vocal par un ensemble de tubes acoustiques. Or toutes les fonctions d’aire produites par ce type de modèle ne peuvent certainement pas l’être par un humain. Par conséquent, l’espace acoustique résultant de la simulation peut recouvrir l’espace acoustique d’un locuteur quelconque. L’avantage en codage de parole est évident : à chaque son produit par le locuteur humain, il correspond au moins une fonction d’aire et en conséquence, tous les sons de la parole peuvent ainsi être codés. Cependant, l’utilisation de modèles articulatoires en reconnaissance a pour but de retrouver les trajectoires des articulateurs du locuteur. Comme Atal l’a remarqué [2], il existe une infinité de fonctions d’aire qui produisent le même ensemble de formants. Le problème est de choisir parmi elles celle que le locuteur a utilisée pour parler. Un moyen d’éliminer les fonctions d’aire les plus irréalistes est par exemple de fixer la longueur du tube représentant le conduit. Mais dans ce cas, comment rendre compte de la protrusion de lèvres ou de l’abaissement du larynx ? En revanche, l’utilisation d’un modèle articulatoire construit à partir d’images de conduits vocaux permet de fixer des contraintes beaucoup plus réalistes. Par exemple le fait que la lèvre inférieure est attachée à la mâchoire...Néanmoins ces modèles doivent être adaptés au locuteur précis qu’ils modélisent afin de pouvoir faire coïncider les espaces vocaliques du locuteur et du modèle. Nous avons ainsi été conduits à adapter le modèle de Maeda pour notre locuteur, à l’aide d’images IRM comme cela est décrit dans ce qui suit. Toutefois, les caractéristiques du conduit du locuteur peuvent aussi être calculées en fonction du signal acoustique notamment grâce à l’étude de l’affiliation des formants aux cavités buccale et pharyngale du conduit vocal [3]. Candille [4] a ainsi adapté le modèle DRM (Distinctive Region Model) et celui de Maeda en calculant un facteur d’échelle optimisé selon le critère de la meilleure adéquation entre les formants du modèle et du locuteur pour la voyelle /y/. Payan et Perrier [5] utilisent les voyelles /i/, /u/, /y/ et /a/ pour normaliser le modèle de Maeda.

4.3.2 Modèles physiques

Certains auteurs représentent la forme des articulateurs par une équation mathématique. Par exemple, Liljencrants [6] représente la langue par les premiers coefficients de la décomposition en série de Fourier de la forme de la langue dans un repère semi-polaire. Ces modèles mettent en évidence le fait que la géométrie de la langue dans le plan sagittal peut être contrôlée avec peu de paramètres. Ainsi les deux premiers coefficients de la série de Fourier suffisent à Liljencrants pour définir le contour du corps de la langue. En utilisant aussi la seconde harmonique, la pointe de la langue peut être modélisée.

Bien que ces modèles donnent une bonne représentation de la forme de la langue, ils ont toutefois quelques difficultés à rendre compte de certains aspects anatomiques du conduit, comme par exemple le fait que la langue soit fixée à la mâchoire.

4.3.3 Modèles géométriques

Ces modèles sont construits à partir de coupes sagittales de conduits vocaux. Les différents articulateurs sont représentés par des formes géométriques (par exemple un cercle pour la langue...). Parmi ces modèles ont peut citer ceux de Cocker [7] et de Mermelstein [8]. L’inconvénient majeur de cette représentation géométrique est qu’elle ne prend pas correctement en compte la souplesse de la langue, principal articulateur.

Pour pallier cette lacune, des modèles statistiques ont vu le jour, comme par exemple celui de Maeda [9], [10]. Ceux-ci sont aussi bâtis à l’aide de radiographies de conduits vocaux. Cependant les paramètres du modèle sont issus d’une analyse statistique des clichés. Ainsi les déformations des articulateurs sont bien représentées dans le plan sagittal. En outre, l’analyse des images a permis de construire un modèle contrôlé à l’aide d’un nombre restreint de paramètres. Dans le modèle de Maeda seulement sept variables suffisent à obtenir une bonne adéquation entre les conduits humains et synthétiques. Une difficulté rencontrée lors de la construction de tels modèles est bien sûr la lecture précise sur les radiographies des contours servant à construire le modèle. Néanmoins, ils représentent bien la géométrie effective du conduit vocal. Il est toutefois nécessaire de calculer l’aire du conduit à partir du diamètre mesuré dans le plan sagittal afin de résoudre les équations acoustiques. Or la forme du conduit ne varie pas seulement dans le plan sagittal, et d’autre part elle dépend certainement du locuteur. Il est par conséquent impossible de faire exactement coïncider les espaces vocaliques du locuteur et du modèle.

4.3.4 Modèles biomécaniques

Plus récemment, des modèles tridimensionnels ont vu le jour. Les données utilisées proviennent en général de l’imagerie ultra-sonique ou par résonance magnétique. La méthode des éléments finis permet de contrôler les différents muscles. Ces modèles permettent de prendre en compte des contraintes telles que la conservation de la masse de la langue et par conséquent de son volume (en effet on peut considérer qu’elle est incompressible étant donnée l’abondance d’eau qu’elle contient). Or les modèles bidimensionnels sont incapables d’intégrer ces contraintes puisque la langue ne se déforme pas uniquement dans le plan sagittal. En particulier, la profondeur du sillon varie fortement, comme on peut l’observer sur des images IRM mais difficilement sur des radiographies. Par conséquent, la reconstruction de l’aire—qui entre en jeu dans les équations de l’acoustique—à partir des coupes sagittales reste assez approximative malgré les diverses formules proposées  [11]. Les modèles biomécaniques n’ont pas cet inconvénient. En revanche ils nécessitent plus de paramètres pour contrôler finement la forme du conduit.

4.3.5 Conclusion

Parmi les nombreux modèles existants, nous avons choisi celui de S. Maeda principalement pour ses qualités anthropomorphiques. En outre il a l’avantage—dans une optique d’inversion acoustique-articulatoire—d’être contrôlé par peu de paramètres. Par ailleurs, l’analyse statistique dont il est issu permet de représenter correctement les liens entre différents articulateurs. Néanmoins, il demeure un modèle de coupes sagittales ce qui rend impossible une adéquation parfaite entre le modèle et le locuteur.

Les modèles tridimensionnels ont comme point fort de fournir directement la fonction d’aire le long du conduit, contrairement aux modèles de coupes qui s’appuient sur une application pour calculer l’aire à partir du diamètre sagittal. Néanmoins, les techniques d’acquisition ne permettent pas encore d’étudier la dynamique du conduit dans les trois dimensions. Or celle-ci est primordiale pour résoudre le problème de l’inversion de manière réaliste.

Notes

[1L.-J. Boë, S. Maeda, and P. Perrier.

La modélisation articulatoire : un demi siècle d’évolution entre
fonctionnel, physique et biomécanique.

XXèmes Journées d’Etudes sur la Parole, pages 41-54, June
1994.

[2B.S. Atal, J.J. Chang, M.V. Mathews, and J.W. Tukey.

Inversion of articulatory-to-acoustic transformation in the vocal
tract by a computer-sorting technique.

In J. Acoust. Soc. Amer., volume 63, pages 1535-1555, May
1978.

[3G. Fant.

Vocal-tract area and length perturbations.

STL-QPSR, pages 1-14, January 1975.

[4L. Candille.

Modèles de Production et Reconnaissance Automatique de la
Parole
.

PhD thesis, Univ. d’Avignon et des Pays de Vaucluse, 1996.

[5Y. Payan and P. Perrier.

Vowel normalization by articulatory normalization : First attempts for
vowel transitions.

In Proc. of the 3rd European conference on Speech communication
and technology
, volume 1, pages 417-420, Berlin, 1993.

[6J. Liljencrants.

Fourier series description of the tongue profile.

Speech Transmission Laboratory, QPSR, (4):9-18, 1971.

[7C. H. Coker.

A model of articulary dynamics and control.

Proc. of the IEEE, 64(4):452-460, 1976.
],[C. H. Coker.

Synthesis by rule from articulatory parameters.

In J. L. Flanagan and L. R. Rabiner, editors, Speech Synthesis,
pages 396-397. Dowden, Hutchinson & Ross, 1973.

[8P. Mermelstein.

Articulatory model for the study of speech production.

J. Acoust. Soc. Am., 53:1070-1082, 1973.

[9S. Maeda.

Une analyse statistique sur les positions de la langue : Etude
préliminaire sur les voyelles françaises.

In IXèmes Journées d’Etude sur la Parole, pages 191-199,
Lannion, France, June 1978.

[10S. Maeda.

Un modèle de la langue avec des composantes linéaires.

In Xèmes Journées d’Etude sur la Parole, pages 152-162,
Lannion, France, May 1979.

[11V. Lecuit.

Sagittal cut to area function transformation : a comparative
study
.

PhD thesis, Mémoire de licence en sciences physiques, Univ. Libre de
Bruxelle, 1995.

Messages

Répondre à cet article