Tout d’abord si le vocabulaire est de petite taille, comme par exemple dans le cas de la commande vocale, on peut envisager de modéliser indépendamment chaque mot. En revanche dès qu’il s’agit de reconnaître un grand vocabulaire—pour la dictée automatique par exemple—la taille du vocabulaire nécessite un découpage plus fin : syllabes, diphones, phones. L’alphabet phonétique international (IPA) donne une classification des différents sons. Chaque classe est appelée un phonème. Cette classification est utilisée pour donner une représentation acoustique de chaque entité lexicale. Ainsi un mot est transcrit par une suite de phonèmes adjacents. Cependant les mots sont prononcés différemment selon l’accent du locuteur, le contexte dans lequel se situe le mot...Pour pallier ces phénomènes on peut adopter une représentation sous forme de treillis phonétique pour chaque mot. Mais différents experts ne segmentent pas la parole de la même manière. Non seulement les frontières des mots, mais aussi la classe phonétique d’un son différent selon l’expert, en particulier lorsque celui-ci doit transcrire une phrase d’une langue différente de sa langue maternelle [1].
En fait le phonème n’a de réalité ni dans le domaine acoustique, ni dans le domaine articulatoire. C’est pourquoi on envisage de représenter les sons selon la manière dont ils sont produits (théories motrices). On définit ainsi le mode d’articulation lié aux sources (glotte, bruits de friction et d’explosion), l’organe articulant (langue, lèvres, luette), le lieu d’articulation (endroit où le son « se forme »). Celui-ci est intéressant puisqu’il permet par exemple de différencier les occlusives (/p/ /k/ et /t/, /b/ /g/ et /d/) qui sont plus difficiles à différencier dans le domaine acoustique. La variabilité interlocuteurs peut être prise en compte par l’utilisation de plusieurs modèles tout comme on le fait à partir d’une étude acoustique du signal. En revanche les causes de la variabilité intralocuteurs, dues au contexte et aux phénomènes de coarticulation (coarticulation anticipatoire : l’articulateur anticipe son déplacement vers le prochain lieu d’articulation, de rétention : le lieu d’articulation n’est pas atteint à cause de l’inertie de l’articulateur) sont certainement plus faciles à appréhender dans le domaine articulatoire.
Dans la section suivante nous décrivons les traitements du signal acoustique souvent utilisés pour la reconnaissance de la parole.
[1] R. Cole, B. T. Oshika, M. Noel, T. Lander, and M.Fanty.
Labeler agreement in phonetic labeling of continuous speech.
ICSLP, pages 2131-2134, September 1994.