Retour en haut

Le langage de l’intelligence artificielle

1 décembre 2021 | Audrey-Maude Vézina

Mise à jour : 20 décembre 2021

Les recherches sur la reconnaissance et la synthèse automatiques de la parole ont explosé avec l’optimisation de l’apprentissage machine.

Signal vocal

La vitesse, l’intonation et l’intensité de parole peut varier d’une personne à l’autre, ce qui complexifie la reconnaissance et la synthèse de la parole.

Le professeur Douglas O’Shaughnessy de l’Institut national de la recherche scientifique (INRS) se spécialise dans le traitement de la parole. Cette discipline est en constante évolution grâce à l’optimisation des algorithmes, principalement la synthèse et la reconnaissance automatiques de la parole. « On peut simuler la voix d’une personne ou ce que quelqu’un entend avec des performances proches de celles de l’humain grâce à l’intelligence artificielle », rapporte le chercheur. Le principe de reconnaissance vocale est entre autres utilisé par des assistants personnels intelligents comme Siri ou Alexa.

La difficulté de l’analyse de la parole, par rapport à celle d’images par exemple, vient de la variabilité. « La vitesse de parole peut varier d’une personne à l’autre, entre autres avec le stress ou l’émotion. La parole varie également en intonation et en intensité, explique-t-il. Ces paramètres rendent la reconnaissance et la synthèse plus compliquées. » 

Du bruit peut également polluer le signal vocal, lorsqu’on parle près d’un chantier de construction par exemple.


Apprendre la parole

L’intelligence artificielle se base sur des réseaux de neurones, semblables à ceux d’un cerveau humain. Elle agit comme une boîte noire : il est possible d’examiner ce qui entre et ce qui sort, mais pas ce qui se passe à l’intérieur.

L’ordinateur apprend donc grâce à un grand nombre de données, tels des enregistrements audio. Or, il n’y aura jamais assez de données pour couvrir tous les cas possibles.

« Il y a des milliards de personnes dans le monde, avec différentes façons de parler. Juste en français et en anglais, il y a des centaines de milliers de mots avec une multitude de combinaisons. C’est un nombre de signaux infini qui nous empêche d’entraîner l’ordinateur pour toutes les possibilités. »

Douglas O’Shaughnessy, expert en traitement de la parole

Pour analyser la parole, l’ordinateur la divise en tranche de 10 millisecondes, soit environ 12 sons par seconde, ce qui lui permet de tenir compte de la variabilité. Pour des langues comme le mandarin, qui se base sur l’intonation pour communiquer, l’analyse de la séquence de mots ne suffit pas. Le professeur O’Shaughnessy travaille donc sur l’analyse de ce qu’on appelle le « pitch » en linguistique. Ces avancées pourraient également servir à reconnaître un interlocuteur, puisqu’il est possible de déduire le sexe, l’âge et l’émotion d’une personne à partir de sa voix.