Résumé–Sommaire

4.5 Inversion acoustique-articulatoire

L’inversion acoustique-articulatoire a pour but le calcul des paramètres du modèle articulatoire à partir du signal acoustique. Ce travail se heurte à plusieurs difficultés. Outre les problèmes liés à l’extraction des indices pertinents dans la parole (en l’occurrence les fréquences de résonance du conduit vocal), plusieurs configurations des articulateurs peuvent produire un signal acoustique équivalent.

L’inversion a été étudiée depuis plusieurs décennies [1], page 46. Outre l’intérêt en reconnaissance, l’extraction de paramètres articulatoires qui évoluent lentement dans le temps permet de coder très efficacement la parole [2]. Différentes méthodes sont utilisées pour conduire l’inversion acoustique-articulatoire.

4.5.1 Inversion par tabulation

Cette technique consiste à créer une table reliant les paramètres acoustiques (formants) aux formes du conduit vocal (paramètres articulatoires).

Par exemple, Larar a utilisé le modèle de Mermelstein pour construire cette table [3], Schroeter, Meyer et Parthasarathy ont utilisé ceux de Mermelstein et de Cocker dans [4]. Yu [5] construit un dictionnaire en utilisant son modèle de fonction d’aire. Candille et Méloni en construisent un à partir du modèle DRM [6].

Ensuite, pour chaque forme acoustique, on recherche la configuration correspondante des articulateurs. Or comme l’explique Atal [7], la correspondance n’est pas biunivoque. Il faut donc imposer des contraintes sur la cinématique et/ou la dynamique des articulateurs afin de choisir les paramètres articulatoires qui donnent la meilleure trajectoire.

4.5.2 Inversion par optimisation

Ces méthodes itératives optimisent des paramètres d’un modèle articulatoire jusqu’à ce que les caractéristiques acoustiques de la parole prononcée et de celle produite par le modèle soient proches. Les paramètres initiaux peuvent être choisis au hasard, mais il est aussi possible de partir d’une solution approchée obtenue par exemple par inversion par tabulation.

Schoentgen et Ciocea [8], [9] utilisent un modèle à tubes simplifié qui leur permet de relier directement les dérivées des trajectoires des longueurs et sections aux dérivées des trajectoires des formants. Afin d’obtenir une solution unique, ils ajoutent au système d’équations qu’ils obtiennent des contraintes.

Dans [10], George, Jospa et Soquet ont appris à un réseau neuronal la relation acoustique-articulatoire. À partir d’une trajectoire acoustique, une trajectoire articulatoire est calculée et optimisée de manière à avoir une bonne correspondance entre les formants calculés et la parole effectivement prononcée.

Notes

[1] M. George.

Analyse du signal de parole par modélisation de la cinématique
de la fonction d’aire du conduit vocal.

PhD thesis, Univ. Libre de Bruxelles, 1997.

[2] M.M. Sondhi and J. Schroeter.

A hybrid time-frequency domain articulatory speech synthesizer.

IEEE Trans. on Acoust., Speech and Signal Processing,
35(7):955-967, July 1987.

[3] J.N. Larar, J. Schroeter, and M.M. Sondhi.

Vector quantization of the articulatory space.

In IEEE trans. on Acoustic, Speech and Signal Processing,
volume 36, pages 1812-1818, December 1988.

[4] J. Schroeter, P. Meyer, and S. Parthasarathy.

Evaluation of improved articulatory codebooks and codebook access
distance measure.

In ICASSP, volume 1 of 1, pages 393-396, New Mexico,
April 1990.

[5] Z.L. Yu and P.C. Ching.

Geometrycally and acoustically optimized codebook for unique mapping
from formants to vocal-tract shape.

In Proc. of EuroSpeech, pages 2551-2554, Rhodos, Greece, 1997.

[6] L. Candille and H. Méloni.

Automatic speech recognition using procuction models.

In ICPhS 95, volume 4, pages 256-259, 1995.

[7] B.S. Atal, J.J. Chang, M.V. Mathews, and J.W. Tukey.

Inversion of articulatory-to-acoustic transformation in the vocal
tract by a computer-sorting technique.

In J. Acoust. Soc. Amer., volume 63, pages 1535-1555, May
1978.

[8] J. Schoentgen and S. Ciocea.

Direct calculation of the vocal tract area function from measured
formant frequencies.

In EUROSPEECH, Madrid, September 1995.

[9] J. Schoentgen and S. Ciocea.

Kinematic formant-to-area mapping.

Speech Communication, 21:227-244, 1997.

[10] M. George, P. Jospa, and A. Soquet.

Estimation de trajectoires articulatoires à l’aide d’un réseau de
neurones.

In XXèmes Journées d’Etude sur la Parole, pages 427-432,
Trégastel, France, June 1994.