logoAIStage

ChatTTS Introducción

ChatTTS es un modelo de generación de voz diseñado para escenarios conversacionales, adecuado para tareas de diálogo de asistentes de modelos de lenguaje de gran tamaño, introducciones de audio y video conversacionales, y más. Admite chino e inglés, y ha mostrado alta calidad y naturalidad en la síntesis de voz a través del entrenamiento con alrededor de 100,000 horas de datos. También hay planes de código abierto para un modelo básico entrenado con 40,000 horas de datos.

Visitar sitio web

¿Qué es ChatTTS?

ChatTTS es un modelo de síntesis de voz diseñado para escenarios de conversación, desarrollado por el proyecto 2noise/chattts en GitHub. ChatTTS está especializado en tareas de diálogo, como tareas de diálogo para asistentes con modelos lingüísticos grandes, así como introducciones de audio y video conversacionales. El modelo admite tanto chino como inglés, mostrando una alta calidad y naturalidad en la síntesis de voz. Este nivel de rendimiento se logra mediante el entrenamiento en aproximadamente 100,000 horas de datos en chino e inglés. Además, el equipo del proyecto planea abrir el código fuente de un modelo básico entrenado con 40,000 horas de datos, lo que ayudará a la comunidad académica y de desarrolladores en futuras investigaciones y desarrollo.

Presentado*

ChatTTS Alternativas