ChatTTS Introdução
ChatTTS é um modelo de geração de voz projetado para cenários conversacionais, adequado para tarefas de diálogo de assistentes de linguagem de grande modelo, introduções de áudio e vídeo conversacionais e muito mais, suporta chinês e inglês e demonstrou alta qualidade e naturalidade na síntese de fala através do treinamento com cerca de 100.000 horas de dados, planos de código aberto para um modelo básico treinado com 40.000 horas de dados também estão em andamento.
O que é ChatTTS
ChatTTS é um modelo de síntese de voz projetado para cenários de conversação, desenvolvido pelo projeto 2noise/chattts no GitHub. ChatTTS é especializado em tarefas de diálogo, como tarefas de diálogo para assistentes com modelos de linguagem de grande escala, bem como introduções de áudio e vídeo conversacionais. O modelo suporta tanto chinês quanto inglês, mostrando alta qualidade e naturalidade na síntese de voz. Esse nível de desempenho é alcançado através do treinamento em aproximadamente 100.000 horas de dados em chinês e inglês. Além disso, a equipe do projeto planeja abrir o código-fonte de um modelo básico treinado com 40.000 horas de dados, o que ajudará a comunidade acadêmica e de desenvolvedores em pesquisas e desenvolvimento futuros.