Si des logiciels comme Dragon Dictate, ViaVoice, VoiceType, Locus...apparaissent sur le marché, cela est dû non seulement aux avancées en traitement du signal et dans les architectures utilisées en reconnaissance de parole, mais aussi à la croissance du rapport performances/coût du matériel informatique et à une meilleure modélisation du langage. En effet l’apprentissage de modèles de Markov ou de réseaux neuronaux nécessite une importante puissance de calcul ainsi qu’une grande capacité mémoire. Par ailleurs, un modèle de langage peut lever certaines ambiguïtés qui persistent même après un décodage acoustico-phonétique correct (par exemple des homophones comme /la/ peuvent représenter la, là ou encore las, et des homonymes comme la peuvent signifier l’article défini ou la note de musique). En outre il peut aussi corriger certaines erreurs du décodage en utilisant des contraintes lexicales, syntaxiques, sémantiques ou même pragmatiques.
Néanmoins, nous nous focaliserons dans cette partie sur les traitements apportés au signal acoustique puis sur les architectures les plus utilisées en reconnaissance de parole. Dans un premier temps nous allons décrire l’objet des traitements : c’est-à-dire la parole. Puis nous présenterons les différentes transformations effectuées sur celle-ci soit pour la représenter dans un domaine mieux approprié pour la reconnaissance, soit pour en extraire localement des indices permettant de classifier des segments de signal. Enfin nous présenterons les architectures utilisant ces représentations ou ces indices pour reconnaître la parole. En particulier nous nous intéresserons au principe de la programmation dynamique, aux Modèles de Markov, aux réseaux neuronaux, et aux systèmes à base de connaissances, sachant que ces architectures peuvent être couplées.