1:56
  • Copié

​Une technique permet d’ajouter toutes sortes d’émotions parfaitement réalistes à une voix artificielle. Le résultat est impressionnant. Utilisable dans les jeux vidéo, les livres audio, les enceintes connectées et les assistants personnels... Siri pourra nous annoncer des mauvaises nouvelles avec le bon ton.

Jusqu’ici, les voix générées par ordinateur étaient plutôt monocordes, pas très expressives. Mais avec les progrès de l’intelligence artificielle, elles peuvent désormais transmettre des émotions aussi convaincantes que les voix humaines. Elles sont même capables… de pleurer.

Imaginez, l’assistant de votre téléphone ou une enceinte connectée, qui vous annonce, avec des nœuds dans la gorge : « désolé, mais vous serez en retard à votre rendez-vous… ». Ce sera bientôt possible parce qu’on sait désormais reproduire toute sorte d’émotions avec des voix synthétiques. Toutes les voix sont générées par ordinateur. C’est en anglais. Mais même sans traduire, l’émotion passe quand même…

Vous êtes sûr, ce ne sont pas des voix enregistrées ?

Non, je vous promets : le ton, la respiration, l’utilisation des silences, la profondeur de la voix… Tout est généré par une intelligence artificielle. C’est une technologie qui vient d’être présentée par la startup Sonantic. Elle fonctionne comme un traitement de texte. Mais au lieu d’ajouter du gras, de l’italique ou du souligné, on ajoute des émotions et on édite des intonations. Cela devrait accélérer le développement des livres audio. Ils pourront être générés avec de vraies belles intonations…

Ce n’est pas forcément une bonne nouvelle pour les comédiens voix…

On verra comment la technologie sera utilisée. Mais on le rappelle : même si la voix est générée par ordinateur, elle est quand même basée sur une voix humaine qui lui donne sa couleur et sa carte d’identité. Pour cela, il faut des comédiens. Ils recevront donc des royalties à chaque exploitation numérique de leur timbre de voix.