Les méthodes vues précédemment utilisent en général des techniques de paramétrisation du signal acoustique (analyse LPC, analyse homomorphique...) basées sur un modèle rudimentaire de la production de la parole : le modèle source/conduit. Cependant elles n’imposent pas de contraintes liées au fait que la parole est produite par un conduit vocal. Or le mouvement des articulateurs est soumis à des contraintes physiques dues à l’anatomie, d’où l’idée d’utiliser des modèles physiques de production de parole qui appréhendent correctement le conduit vocal. En outre, si psychologiquement la parole apparaît comme une succession d’unités discrètes, elle est produite par un flux d’air continu expulsé par les conduits nasal et vocal. La recherche d’invariants acoustiques permettant de classifier les unités discrètes laisse place à une recherche des causes de la variabilité lorsqu’on essaie d’intégrer les aspects de production et de perception de la parole [1]. Ainsi la phonologie articulatoire [2] fournit un cadre qui unifie les unités linguistiques et les unités de production par les phonèmes. La variabilité acoustique due aux phénomènes de coarticulation s’explique par des chevauchements de gestes articulatoires.
Rose, Schroeter et Sondhi décrivent aussi le rôle potentiel des modèles de production dans la reconnaissance automatique de parole [3]. Premièrement, les systèmes de RAP la représentent souvent comme une séquence de segments ne se recouvrant pas (systèmes classifiant des trames de parole issues d’une segmentation préalable du signal acoustique). Ceci ne rend pas compte des phénomènes d’anticipation (par exemple lors de la transition /iy/ avec anticipation de la protrusion des lèvres). Il semble donc plus judicieux de représenter la parole par un flot continu de mouvements articulatoires. D’autre part, la connaissance a priori de l’organisation temporelle des gestes articulatoires permet d’exploiter les propriétés d’invariance liées à la notion d’articulateurs critiques [4]. Ces articulateurs sont ceux pour lesquels un faible déplacement entraîne une grande modification du signal acoustique. Enfin, dans les deux expériences citées par Rose, l’incorporation de données articulatoires a fortement amélioré les taux de reconnaissance (30% dans chaque cas). Dans la première expérience, les images des lèvres et de la langue ont été utilisées, dans la seconde, ce sont des trajectoires articulatoires mesurées grâce à l’EMA (ElectroMagnetic Articulograph). Cette dernière technique consiste à placer des bobines sur les articulateurs. Le locuteur doit prononcer les phrases dans un champ magnétique. Le courant induit dans les bobines permet de connaître les trajectoires des différents articulateurs.
[1] B. Lindblöm.
Approche intégrée de la production et de la perception.
In Fondements et perspectives en reconnaissance automatique de
la parole, pages 1-8, 1995.
[2] A. Marchal.
Eléments de phonologie articulatoire.
In Fondements et perspectives en reconnaissance automatique de
la parole, pages 33-39, 1995.
[3] R.C. Rose, J. Schroeter, and M. M. Sondhi.
An investigation of potential role of speech production models in
automatic speech recognition.
In ICSLP, pages 575-578, Yokohama, Japan, September 1994.
[4] L. Deng and D. X. Sun.
A statistical approach to automatic speech recognition using the
atomic speech units contructed from overlapping articulatory features.
J. Acoust. Soc. Am, 95(5):2702-2719, May 1994.