Post-doctorant au LIMSI, équipe AA (projet ADN-TR)
email : nicolas point audibert at limsi point fr
tel : +33 (0)1 69 85 81 57
Au LIMSI (post-doc, depuis janvier 2012) : Caractérisation de l’espace expressif d’un locuteur pour sa reproduction en synthèse de la parole, dans le cadre du projet FUI ADN-TR : modélisation des variations prosodiques et de source glottique liée à l'expressivité d'un locuteur-cible.
Au LPP (post-doc, septembre 2010 - décembre 2011) : Développement et évaluation de méthodes de post-synchronisation, de visualisation et d'analyse de données articulatoires multi-capteurs. Évaluation comparative de métriques pour quantifier la nasalité et la perturbation de l'espace vocalique.
Au LIA (post-doc, septembre 2009 - août 2010) : Évaluation de méthodes automatiques pour la description phonético-acoustique de la parole dysarthrique. Comparaison de performances en vérification du locuteur en fonction des caractéristiques phonétiques des données d'apprentissage.
Au GIPSA-lab (DEA + thèse, 2003 - août 2009) : Prosodie expressive (cf. section "Thèse" ce-dessous)
2008 : Thèse de doctorat de Grenoble INP en Ingénierie de la Cognition, de la Création et des Apprentissages (anciennement Sciences Cognitives), préparée au Département Parole & Cognition de GIPSA-lab (Grenoble)
2004 : DEA Sciences du Langage (Université Stendhal - Grenoble 3), mention Très Bien
2003 : DEA Sciences Cognitives (Grenoble INP), mention Très Bien
2002 : Diplôme d’ingénieur en Génie Informatique de l’Université de Technologie de Belfort-Montbéliard, filière Ingénierie des Logiciels et de la Connaissance. Spécialisation en Intelligence Artificielle, Conception Orientée Objet et Systèmes d’Information.
Thèse soutenue le mardi 2 décembre 2008 (Maison Jean Kuntzmann, campus de Grenoble)
Titre de la thèse : Prosodie de la parole expressive : dimensionnalité d'énoncés méthodologiquement contrôlés authentiques et actés
Résumé : Les récents progrès de la synthèse de la parole ont redéfini les enjeux majeurs de la communication personne-machine, qui s'articulent désormais autour du concept de pertinence du clone parlant à travers son expressivité. Nous défendons une hypothèse selon laquelle la dynamique des contours prosodiques serait porteuse d'information affective, en séparant les affects dont l'expression est contrôlée volontairement vs. involontairement. Pour cela a été développé E-Wiz, une plateforme dédiée à la capture de corpus multimodaux de parole expressive spontanée par des scénarios de Magicien d'Oz. 17 locuteurs francophones (dont 7 acteurs qui ont rejoué immédiatement après les affects ressentis) ont été capturés dans une tâche prétexte d'apprentissage des langues, le scénario Sound Teacher, visant l'induction d'états émotionnels de valence plutôt positive puis négative exprimés principalement sur des énoncés monosyllabiques isolés. Ils ont ensuite annoté eux-mêmes les affects exprimés. Nous avons identifié des contours de F0 distincts pour différentes expressions émotionnelles. Une évaluation perceptive en conditions audio et audiovisuelle des affects actés par un locuteur a montré que les monosyllabes étaient aussi bien reconnues que les énoncés plus longs. Deux expériences perceptives de projection dimensionnelle de stimuli expressifs sur des stimuli neutres ont montré qu'aucune dimension ne pouvait être liée directement à une classe particulière d'émotions. L'intensité et la typicalité d'expressions actées et spontanées produites par 6 locuteurs ont été mesurées, préalablement à une tâche de discrimination audio, visuelle et audiovisuelle de paires de stimuli actés vs. spontanés. Cette expérience a montré que des sujets naïfs étaient capables de discriminer les énoncés actés vs. spontanés sans différence notable entre classes d'émotion mais avec une importante variabilité interindividuelle, et sans que les différences entre intensités d'émotion perçues n'expliquent entièrement les scores de discrimination.
Mots-clés : Prosodie ; Emotions ; Affects ; Cognition ; Synthèse vocale ; Qualité de voix ; Contours ; Multimodalité ; Agents Conversationnels Animés
Composition du jury :
Président : Christian Boitet (Laboratoire d'Informatique de Grenoble)
Rapporteur : Jean-François Bonastre (Laboratoire d'Informatique d'Avignon)
Rapporteur : Jacqueline Vaissière (Laboratoire de Phonétique et Phonologie, Paris)
Directeur de thèse : Jean-Luc Schwartz (GIPSA-lab, Département Parole et Cognition)
Co-encadrante (encadrement scientifique) : Véronique Aubergé (GIPSA-lab, Département Parole et Cognition)
Examinateur : Nick Campbell (ATR, Nara, Japon et Trinity College, Dublin, Irlande)
Examinateur : Laurent Besacier (Laboratoire d'Informatique de Grenoble)
Examinateur : Thierry Moudenc (Orange-labs, Lannion)
Laukka, P., Audibert, N. & Aubergé, V. (sous presse, disponible en ligne). Exploring the Determinants of the Graded Structure of Vocal Emotion Expressions. Cognition & Emotion.
Laukka, P., Audibert, N. & Aubergé, V. (2009). Exploring the graded structure of vocal emotion expressions. In Hancil, S. (Ed.), The role of prosody in the expression of emotions in English and in French, Linguistic Insights 97, Bern, Suisse: Peter Lang AG, pp. 241-258.
Boë, L.-J., Bessière, P., Ladjili, N., Audibert, N. (2008). Simple combinatorial considerations challenge the proof of Ruhlen’s mother tongue theory. In Davis, B.L., Zajdo, K. (Eds.), Syllable Development: The Frame/Content Theory and Beyond. Mahwah, NJ: L. Erlbaum, pp. 63 92.
Audibert, N., Amelot, A. (2011). Comparison of nasalence measurements from microphones and accelerometers and implications for phonetic analysis of nasality. Proceedings of the 15th International Conference on Speech Communication and Technology (INTERSPEECH 2011), Florence, Italie.
Fougeron, C., Audibert, N. (2011). Testing various metrics for the description of vowel distortion in dysarthria. Proceedings of the 17th International Congress of Phonetic Sciences (ICPhS 2011), Hong-Kong, Chine.
Georgeton, L., Audibert, N., Fougeron, C. (2011). Rounding and height contrasts at the beginning of different prosodic constituents in French. Proceedings of the 17th International Congress of Phonetic Sciences (ICPhS 2011), Hong-Kong, Chine.
Kahn, J., Audibert, N., Rossato, S. & Bonastre, J.F. (2011). Inter and intra-speaker variability in French: an analysis of oral vowels and its implication for automatic speaker verification. Proceedings of the 17th International Congress of Phonetic Sciences (ICPhS 2011), Hong-Kong, Chine.
Kahn, J., Audibert, N., Rossato, S., Bonastre, J.F. (2011). Speaker verification by inexperienced and experienced listeners vs. speaker verification system. 2011 International Conference on Acoustics, Speech and Signal Processing (ICASSP 2011), Prague, République Tchèque.
Audibert, N., Aubergé, V. & Rilliard, A. (2010). Prosodic Correlates of Acted vs. Spontaneous Discrimination of Expressive Speech: A Pilot Study. Proceedings of the 5th International Conference on Speech Prosody, Chicago, Etats-Unis.
Audibert, N., Larcher, A., Lévy, C., Kahn, J., Rossato, S., Matrouf, D. & Bonastre, J.F (2010). LIA human-based system description for NIST HASR 2010. Proceedings of the NIST 2010 Speaker recognition evaluation workshop (Odyssey 2010 satellite), Brno, République Tchèque.
Kahn, J., Audibert, N., Rossato, S. & Bonastre, J.F. (2010). Intra-speaker variability effects on Speaker Verification performance. Proceedings of the 7th International Workshop on Speaker and Language Recognition (Odyssey 2010), Brno, République Tchèque.
Fougeron, C., Crevier-Buchman, L., Fredouille, C., Ghio, A., Meunier, C., Chevrie-Muller, C., Audibert, N., Bonastre, J.-F., Colazo Simon, A., Delooze, C., Duez, D., Gendrot, C., Legou, T., Levèque, N., Pillot, C., Pinto, S., Pouchoulin, G., Robert, D., Vaissiere, J., F. Viallet, F. & Vincent, C. (2010). The DesPho-APaDy Project: Developing an acoustic-phonetic characterization of dysarthric speech in French. Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC 2010), La Valette, Malte.
Coadou, M. & Audibert, N. (2009). Voice quality and English as a Foreign Language: A pilot study. Proceedings of the 3rd International Workshop on Advanced Voice Functions Assessment (AVFA09), Madrid, Espagne.
Audibert, N., Aubergé, V. & Rilliard, A. (2008). Acted vs. spontaneous expressive speech: perception with inter-individual variability. Proceedings of the 2nd International Workshop on Corpora for Research on Emotion and Affect, Marrakech, Maroc, pp. 23-27.
Audibert, N., Aubergé, V. & Rilliard, A. (2008). How we are not all competent the same for discriminating acted from spontaneous expressive speech. Proceedings of the 4th International Conference on Speech Prosody, Campinas, Brésil, pp. 693-696.
Bõhm T., Audibert N., Shattuck-Hufnagel S., Németh G. & Aubergé, V. (2008). Transforming modal voice into irregular voice by amplitude scaling of individual glottal cycles. Proceedings of Acoustics’08, Paris, France, actes CD-ROM.
Fék, M., Audibert N., Szabo, J., Rilllard, A., Németh, G. & Aubergé, V. (2008). Multimodal Spontaneous Expressive Speech Corpus for Hungarian. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC 2008), Marrakech, Maroc.
Audibert, N., Aubergé, V. & Rilliard, A. (2007). When is the Emotional Information? A gating experiment for gradient and contours cues. Proceedings of the 16th International Congress of Phonetic Sciences (ICPhS 2007), Saarbrücken, Allemagne, pp. 2137-2140.
Audibert, N. & Aubergé, V. (2007). Gradient or Contours Cues? A Gating Experiment for the Timing of the Emotional Information. Proceedings of the 2nd International Conference on Affective Computing & Intelligent Interaction, Lisbonne, Portugal, pp. 755-756.
Laukka, P., Audibert, N. & Aubergé, V. (2007). Graded structure in vocal expression of emotion: What is meant by “prototypical expressions”? Proceedings of the 1st International Workshop on Paralinguistic Speech, Saarbrücken, Allemagne, pp. 1-4.
Aubergé, V., Audibert, N. & Rilliard, A. (2006). Auto-annotation: an alternative method to label expressive corpora. Proceedings of the 1st International Workshop on Corpora for Research on Emotion and Affect, Gênes, Italie, pp. 45-46.
Audibert, N., Vincent, D., Aubergé, V. & Rosec, O. (2006). Evaluation of expressive speech resynthesis. Proceedings of the 1st International Workshop on Corpora for Research on Emotion and Affect, Genoa, Italie, pp. 37-40.
Audibert, N., Vincent, D., Aubergé, V. & Rosec, O. (2006). Expressive Speech Synthesis: Evaluation of a Voice Quality Centered Coder on the Different Acoustic Dimensions. Proceedings of the 3rd International Conference on Speech Prosody, Dresden, Allemagne (actes CD-ROM).
Burkhardt, F., Audibert, N., Malatesta, L., Türk, O., Arslan, L. & Aubergé, V. (2006). Emotional Prosody - Does Culture Makes A Difference? Proceedings of the 3rd International Conference on Speech Prosody, Dresde, Allemagne (actes CD-ROM).
Audibert, N., Aubergé, V. & Rilliard, A. (2005). The relative weights of prosodic parameters for the expression of emotion in speech: a resynthesis study. Proceedings of the 1st International Conference on Affective Computing & Intelligent Interaction, Beijing, Chine, pp. 527-534.
Audibert, N., Aubergé, V. & Rilliard, A. (2005). The prosodic dimensions of emotion in speech: the relative weights of parameters. Proceedings of the 9th International Conference on Speech Communication and Technology (INTERSPEECH 2005), Lisbonne, Portugal, pp. 525-528.
Aubergé, V., Audibert, N. & Rilliard, A. (2004). E-Wiz: A trapper protocol for hunting the expressive speech corpora in lab. Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC 2004), Lisbonne, Portugal, pp. 179-182.
Aubergé, V., Audibert, N. & Rilliard, A. (2004). Acoustic morphology of expressive speech: What about contours? Proceedings of the 2nd International Conference on Speech Prosody, Nara, Japon, pp. 91-95.
Rilliard, A., Aubergé, V. & Audibert, N. (2004). Evaluating an authentic audio-visual expressive speech corpus. Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC 2004), Lisbonne, Portugal, pp. 175-178.
Rossato, S., Audibert, N. & Aubergé, V. (2004). Emotional voice measurement: a comparison of articulatory-EGG and acoustic-amplitude parameters. Proceedings of the 2nd International Conference on Speech Prosody, Nara, Japon, pp. 749-752.
Aubergé, V., Audibert, N. & Rilliard, A. (2003). Why and how to control the authentic emotional speech corpora? Proceedings of the 8th European Conference on Speech Communication and Technology (EUROSPEECH 2003), Genève, Suisse, pp. 185-188.
Audibert, N., Aubergé, V. & Rilliard, A. (2010). Discrimination perceptive d’expressions émotionnelles actées vs. spontanées : Variabilité interindividuelle et influence de l’intensité de l’émotion. Technique et Science Informatiques (numéro spécial Agents conversationnels animés), vol. 29 (7), pp. 833-857.
Aubergé, V., Audibert, N. & Rilliard, A. (2006). De E-Wiz à E-Clone : recueil, modélisation et synthèse d’expressions authentiques. Revue d’Intelligence Artificielle – Numéro spécial « Interactions émotionnelles », vol. 20 (4-5), pp. 499-528.
Kahn, J., Audibert, N., Rossato, S., Bonastre, J.F. (accepté). Etude de la variation inter-locuteur à partir d'analyses automatiques sur un grand corpus de parole. Congrès mondial de linguistique française 2012, Lyon, France.
Audibert, N., Fougeron, C. (accepté). Distorsions de l'espace vocalique : quelles mesures ? Application à la dysarthrie. 19èmes Journées d'Étude sur la Parole (JEP 2012), Grenoble, France.
Georgeton, L., Audibert, N. (accepté). Variations de la configuration labiale des voyelles /i, y, a/ : effets de la position prosodique et du locuteur. 19èmes Journées d'Étude sur la Parole (JEP 2012), Grenoble, France.
Ridouane, R., Audibert, N., Nguyen V.M. (accepté). Les ajustements laryngaux en Français. 19èmes Journées d'Étude sur la Parole (JEP 2012), Grenoble, France.
Audibert, N., Fougeron, C. (2011). Caractérisation acoustique vs. perceptive de la parole dysarthrique 4èmes Journées de Phonétique Clinique, Strasbourg, France.
Audibert, N., Amelot, A., Maeda, S. & Crevier-Buchman, L. (2011). Évaluation de systèmes d’acquisition audio-vidéo pour la phonétique clinique. 4èmes Journées de Phonétique Clinique, Strasbourg, France.
Fougeron, C., Jousseaume, I., Audibert, N. & Lévêque, N. (2011). Comparaison de différentes métriques pour décrire l’altération des voyelles dans la parole dysarthrique. 4èmes Journées de Phonétique Clinique, Strasbourg, France.
Audibert, N., Aubergé, V. & Rilliard, A. (2010). Prosodie et discrimination de parole expressive actée vs. spontanée. 18èmes Journées d'Étude sur la Parole (JEP 2010), Mons, Belgique.
Audibert, N., Fougeron, C., Fredouille, C., Meunier, C., Panseri, O. (2010). Évaluation d’un alignement automatique sur la parole dysarthrique. 18èmes Journées d'Étude sur la Parole (JEP 2010), Mons, Belgique.
Fougeron, C., Audibert, N., Fredouille, C., Meunier, C., Gendrot, C., Panseri, O. (2010). Comparaison d’analyses phonétiques de parole dysarthrique basées sur un alignement manuel et un alignement automatique. 18èmes Journées d'Étude sur la Parole (JEP 2010), Mons, Belgique.
Kahn, J., Audibert, N., Rossato, S., Bonastre, J.F. (2010). Modéliser un locuteur : Influence des signaux d’apprentissage sur les performances d’un système de RAL. 18èmes Journées d'Étude sur la Parole (JEP 2010), Mons, Belgique.
Audibert, N., Aubergé, V. & Rilliard, A. (2008). Émotions actées vs. spontanées : variabilité des compétences perceptives. 17èmes Journées d'Étude sur la Parole (JEP 2008), Avignon, France, pp. 257-260.
Audibert, N., Aubergé, V. & Rilliard, A. (2006). Synthèse vocale des émotions – Donner la parole émue à C-Clone. 2ème Workshop francophone sur les Agents Conversationnels Animés (WACA 2006), Toulouse, France, pp. 27-35.
Audibert, N., Vincent, D., Aubergé, V., Rilliard A. & Rosec, O. (2006). Dimensions acoustiques de la parole expressive : poids relatifs des paramètres resynthétisés par Praat vs. LF-ARX. 16èmes Journées d'Etude sur la Parole (JEP 2006). Dinard, France, pp. 341-344.
Aubergé, V., Rilliard, A. & Audibert, N. (2005). De E-Wiz à E-Clone : méthodologie expérimentale pour la modélisation des émotions et affects authentiques. 1er Workshop francophone sur les Agents Conversationnels Animés (WACA'01), Grenoble, France, pp. 125-134.
Audibert, N., Rilliard, A. & Aubergé, V. (2005). La plateforme E-Wiz (Expressive-Wizard of Oz) : capture d'expressions authentiques en Interaction Homme-Machine. 1er Workshop francophone sur les Agents Conversationnels Animés (WACA'01). Grenoble, France, pp. 161-164.
Audibert, N., Rossato, S. & Aubergé, V. (2004). Paramétrisation de la qualité de voix : EGG vs. filtrage inverse. 15èmes Journées d'Etude sur la Parole (JEP 2004), Fès, Maroc, pp. 53-56.
Audibert, N., Aubergé, V. & Rilliard, A. (2004). EWiz : contrôle d’émotions authentiques. 15èmes Journées d'Etude sur la Parole, Fès, Maroc, pp. 49-52.
Audibert, N. (2007). Morphologie prosodique des expressions vocales des affects : quel timing pour le décodage de l’information émotionnelle ? 7èmes Rencontres Jeunes Chercheurs en Parole, Paris, pp. 12-15.
Audibert, N., Vincent, D. (2006). Evaluation des poids relatifs des dimensions acoustiques de la parole expressive par analyse/resynthèse LF-ARX. 1er Colloque International des Etudiants Chercheurs en Didactique des Langues et Linguistique, Grenoble, actes CD-ROM.
Audibert, N. (2005). Evaluation par analyse/resynthèse des poids relatifs des paramètres prosodiques pour l’expression des émotions dans la parole. 6èmes Rencontres Jeunes Chercheurs en Parole, Toulouse, actes CD-ROM.
Audibert, N. (2004). Méthodologie de recueil de corpus de parole émotionnelle spontanée. « La Construction des observables en sciences du langage », Colloque Jeunes Chercheurs Modyco, Nanterre, actes CD-ROM.
Audibert, N., Aubergé, V., Rilliard, A. (2003). Collecte de corpus de parole émotionnelle authentique : problématique et esquisse de solution. 5èmes Rencontres Jeunes Chercheurs en Parole, Grenoble, actes CD-ROM.