La tâche du LIMSI dans ce projet est d’insérer dans le logiciel Méta-Mallette plusieurs synthétiseurs temps-réels basés sur les recherches et développement du laboratoire sur les modèles de la voix expressive, comme le contrôle gestuel de voix chantée, la modification prosodique temps-réel de phrases pré-enregistrées, ou encore le contrôle gestuel de l'articulation.
Le projet OrJo est un projet FEDER, financé par la Région Ile-de-France pour le LIMSI. Il regroupe des laboratoires de recherche (le LIMSI et le LAM), une entreprise (3Dlized) et une association de création musicale (Puce Muse), qui pilote le projet. Le lien vers le site du projet est le suivant : http://pucemuse.com/orjo.
Cantor Digitalis est un synthétiseur par formants amélioré contrôlable en temps-réel à l’aide d’une tablette graphique et d’un joystick. Il est basé sur un système source-filtre où la source représente la glotte et le filtre représente le conduit vocal et le rayonnement aux lèvres. Certaines interactions entre source et filtre sont modélisées. Enfin, le synthétiseur est réglé de façon à être utilisé dans des applications musicales, notamment la voix chantée. L’utilisateur dispose d’un choix de plusieurs registres de voix chantée et de personnalisation des locuteurs. A l'aide de la méta-mallette a été créé un choeur, le Chorus Digitalis, qui regroupe plusieurs musiciens contrôlant chacun un Cantor Digitalis.
Voir des extraits vidéos sur la page de du choeur Chorus Digitalis.
Une configuration du synthétiseur permet le contrôle de l'amplitude et de la fréquence des deux premiers formants de la voix donnant la possibilité de jouer du chant diphonique.
Le système Calliphony permet de contrôler en temps réel l'intonation et la vitesse d'un signal vocal (réel ou synthétisé) enregistré, en gardant le naturel de la voix après transformation. Le système est basé sur une version temps réel de l'algorithme TD-PSOLA.
A l'aide d'une tablette graphique, on contrôle la hauteur de la voix suivant l'axe Y, et suivant le Preset utilisé, on contrôle la vitesse de lecture ou le positionnement temporel dans le fichier suivant l'axe Y. Il a été montré par des études au LIMSI que notre aptitude à contrôler la prosodie d'une voix enregistrée à l'aide d'une tablette graphique est aussi bonne qu'avec notre propre voix. Et il existe sans doute la même aptitude quant au contrôle rythmique de la prosodie, contrôlable également par Calliphony.
La production de syllabes est un système complexe qui met notamment en jeu une synchronisation des différents éléments de l'appareil vocal. Sur des durées brèves (de l'ordre d'une dizaine de millisecondes), les différents articulateurs que sont lèvres, langue, mâchoires ou luette, doivent se synchronisées pour changer dynamiquement la forme du conduit vocal, ce qui permet de modifier l'onde acoustique issue de la source glottique. La synchronisation se fait également entre les articulateurs et la vibration des plis vocaux, afin de produire des sons voisés ou non, c'est à dire qui disposent d'une composante harmonique ou non.
On est amené à modéliser d'une part le moteur de synthèse de la voix, et d'autre part la manière de le contrôler. Cependant, ces deux composantes ne sont pas indépendantes. Suivant le modèle de synthèse utilisé, il sera ou ne sera pas possible de contrôler certains paramètres de l'articulation, pour des raisons liées au modèle de synthèse qui ne fournit pas certains paramètres, ou liés au modèle de contrôle qui ne permet pas d'avoir accès à suffisamment de paramètre ou dans des durées satisfaisantes.
Plus notre système artificiel nous permettra de produire de situations diverses, plus notre modèle pourra être considéré comme proche du système vocal réel. La limitation à des buts musicaux nous permet de ne pas être obligé de mettre à disposition la production de toute les unités phonologiques d'un langage et de restreindre le nombre élevé de combinaison et donc de coarticulation de phonèmes possibles. Contrairement à Cantor Digitalis, on se concentre sur l'articulation et l'intonation devient un paramètre secondaire, même si son accès est toujours présent, notamment pour jouer sur la prosodie. Cela nous mène plutôt vers des applications de voix de type percussion comme des onomatopées.
Lionel Feugère, Christophe d'Alessandro, Sylvain Le Beux, Albert Rilliard, Guillaume Mahenc