Retour en haut

Conférence du professeur Anderson Avila sur la robustesse des systèmes de vérification du locuteur dans des environnements émotionnels et adverses

Le professeur Anderson Avila de l'INRS, expert en cybersécurité et en sciences de l’information, présentera une conférence sur la « Robustesse des systèmes de vérification du locuteur dans des environnements émotionnels et adverses » le 20 septembre 2023 à 10 h 30.

20 septembre 2023

De 10 h 30 à 11 h 30

Centre Énergie Matériaux Télécommunications
Place Bonaventure
Salle 18
800, rue de La Gauchetière
Portail Nord-Ouest, bureau 6900
Montréal (Québec)  H5A 1K6

Ouvert à la communauté universitaire  

 

Événement hybride : plateforme Zoom et en présence (Salle 18 à Place Bonaventure)

 

Lien Zoom de la conférence

 

Café et viennoiseries

Professeur qui invite : François Légaré

Résumé

La variabilité intra-locuteur, causée par la parole émotionnelle, constitue une menace réelle pour les performances des systèmes de reconnaissance du locuteur. En fait, en tant qu’êtres humains, nous changeons constamment notre état émotionnel. Bien que de nombreux efforts aient été déployés pour accroître la robustesse de la vérification automatique du locuteur (ASV) face aux effets de canal ou aux attaques d’usurpation d’identité, seule une poignée d’études ont abordé les conséquences néfastes de la parole émotionnelle. Ici, nous commençons par discuter d’une nouvelle méthode pour minimiser l’inadéquation entre le discours neutre et affectif. À cette fin, un modèle de mélange gaussien est utilisé pour apprendre une distribution de probabilité a priori de la parole neutre pour un locuteur (c’est-à-dire caractériser son espace source) donné. Ces connaissances sont ensuite utilisées pour minimiser les différences entre les espaces cible (affectif) et source (neutre). Nous introduisons aussi une contre-mesure contre les attaques par la parole enregistrée, qui ont été également reconnues comme une menace sérieuse pour les systèmes ASV. Plus précisément, nous proposons un frontal basé sur l’estimation aveugle de l’ampleur de la réponse du canal et, en arrière-plan, un réseau neuronal résiduel. Notre hypothèse est que la réponse en amplitude du canal, obtenue en soustrayant le spectre log-amplitude du signal observé de la prédiction de la moyenne du spectre log-amplitude de la contrepartie propre du signal observé, capturera les nuances des ambiances de la pièce, des enregistrements et appareils de lecture, ce qui est essentiel pour distinguer la parole enregistrée de la parole authentique.