VALL-E de Microsoft imite n'importe quelle voix - trois secondes d'enregistrement suffisent
Nouveautés + tendances

VALL-E de Microsoft imite n'importe quelle voix - trois secondes d'enregistrement suffisent

Martin Jud
11/1/2023
Traduction: traduction automatique

Après DALL-E, voici VALL-E : Microsoft et OpenAI ont créé une nouvelle intelligence artificielle (IA) capable d'imiter la voix. Un enregistrement vocal de trois secondes devrait suffire à l'IA.

Aujourd'hui, nous savons : Ce que montrent les photos ou les vidéos ne s'est pas forcément passé ainsi. Depuis ChatGPT et DALL-E, on sait aussi qu'un texte n'est pas forcément le fruit de la plume d'un auteur ou qu'une image sort du pinceau d'une artiste. Maintenant, c'est au tour de la voix.

VALL-E est un modèle d'IA que Microsoft appelle "Neural Codec Language". Il permet de créer des profils vocaux et d'imiter la voix correspondante. Trois secondes d'enregistrement de la voix suffisent à l'IA pour imiter ce qu'elle entend de manière naturelle et avec une coloration émotionnelle. Elle peut ensuite lire n'importe quel texte avec la voix. Le son ambiant de l'enregistrement doit également être conservé. La nouvelle IA se prête parfaitement à des fonctions de texte à voix, ce qui pourrait à la rigueur permettre de lire un livre avec la voix de l'auteur.

Microsoft est conscient du potentiel d'abus de cette technologie. C'est pourquoi, dans les futures applications, un protocole sera mis en place pour que le contenu créé par VALL-E puisse être reconnu comme tel.

Aperçu du fonctionnement de VALL-E.
Aperçu du fonctionnement de VALL-E.
Source : Microsoft

L'IA donne des résultats impressionnants avec ce que Microsoft présente comme exemples. Pour son entraînement, 60 000 heures d'enregistrement de la langue anglaise ont été traitées. Cela correspond à cent fois l'input des synthèses linguistiques existantes.

Vous pouvez écouter des exemples de VALL-E sur GitHub https://valle-demo.github.io/. En plus de la sortie vocale de VALL-E, les enregistrements d'entrée de trois secondes (Speaker Prompt) sont également disponibles. Vous pouvez également écouter comment le texte saisi est prononcé avec la voix originale (Ground Truth). Et sous Baseline, vous pouvez entendre la comparaison entre les synthèses texte-parole existantes et la qualité sonore. On ne sait pas encore si, quand et sous quelle forme vous pourrez utiliser VALL-E à l'avenir.

Photo de couverture : shutterstock

Cet article plaît à 52 personne(s)


User Avatar
User Avatar

Le baiser quotidien de la muse stimule ma créativité. Si elle m’oublie, j’essaie de retrouver ma créativité en rêvant pour faire en sorte que mes rêves dévorent ma vie afin que la vie ne dévore mes rêves.


Ces articles pourraient aussi vous intéresser

Commentaire(s)

Avatar