Le RAD-TTS de NVIDIA génère des voix d’IA réalistes et plus expressives

  • FrançaisFrançais



  • Dans le contexte: Les voix de synthèse ont parcouru un long chemin au fil des ans. Fini le temps des voix synthétiques sonnant comme un robot d’un film de science-fiction des années 1960. Les assistants d’IA contemporains comme Alexa et Siri produisent une voix à consonance humaine beaucoup plus réaliste.

    En ce qui concerne les voix synthétisées et la synthèse vocale, ce n’est toujours pas parfait. Cependant, le département de recherche sur la synthèse vocale de Nvidia a développé certains outils d’apprentissage automatique pour rendre la synthèse vocale plus réaliste dans diverses applications.

    Nvidia a développé un modèle d’IA appelé RAD-TTS. Les développeurs peuvent entraîner le modèle avec leur propre voix, et il convertira les invites de texte en discours naturel en utilisant les inflexions et les tons qu’il a appris. Il peut également convertir la voix d’un locuteur en celle d’un autre.

    “Une autre de ses caractéristiques est la conversion vocale, où les mots d’un locuteur (ou même le chant) sont prononcés dans la voix d’un autre locuteur”, explique Nvidia. « Inspirée par l’idée de la voix humaine en tant qu’instrument de musique, l’interface RAD-TTS offre aux utilisateurs un contrôle précis au niveau de l’image sur la hauteur, la durée et l’énergie de la voix synthétisée. »

    Tu peux voir exemples de la technologie utilisée dans la série de vidéos “I AM AI” de Nvidia. Le producteur vidéo de Nvidia a lu le script de ces démos et le mannequin a converti sa voix en narratrice. Une fois que le modèle a un script de base, le développeur peut ajuster la narration pour mettre l’accent sur des mots spécifiques et modifier le rythme pour l’adapter à la vidéo.

    La technologie a du potentiel dans de nombreux domaines, notamment le service client automatisé, la traduction linguistique, les aides pour les personnes handicapées et même les jeux. Pratiquement toute application nécessitant une voix humaine au son naturel a le potentiel de bénéficier de RAD-TTS.

    “Plusieurs modèles sont entraînés avec des dizaines de milliers d’heures de données audio sur les systèmes NVIDIA DGX. Les développeurs peuvent affiner n’importe quel modèle pour leurs cas d’utilisation, accélérant ainsi la formation à l’aide de calculs de précision mixte sur les GPU NVIDIA Tensor Core”, lit-on dans le communiqué de l’entreprise. article de blog.

    Les outils sont accélérés par GPU et sont bien sûr optimisés pour une utilisation sur des ordinateurs équipés de cartes graphiques Nvidia. Cependant, son travail est open source et gratuit pour tous les développeurs intéressés. Nividia l’a rendu disponible dans le Nvidia NeMo Boîte à outils Python sur son Centre NGC de conteneurs et de logiciels.

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.