Seed Audio preguntas frecuentes
Genere locuciones y diálogos expresivos con Seed Audio. Herramienta de texto a voz impulsada por ElevenLabs con etiquetas de interpretación, selección multivoz y vista previa MP3 rápida.
Preguntas frecuentes de Seed Audio
¿Qué es Seed Audio?
Seed Audio es una herramienta de conversión de texto a voz (Text-to-Speech) y texto a diálogo impulsada por IA, basada en la tecnología de ElevenLabs e integrada en la plataforma NanoPhoto. Convierte guiones escritos en audio hablado con etiquetas de interpretación expresivas, soporte para diálogos con múltiples voces y vista previa rápida en MP3. Los usuarios escriben o pegan un guion, seleccionan una voz, opcionalmente añaden indicaciones de actuación y generan audio escuchable en segundos sin salir del navegador.
¿Cuál es la diferencia entre texto a voz y texto a diálogo?
Texto a voz (TTS) genera la locución de un solo narrador a partir de un bloque de texto, ideal para vídeos explicativos, lecturas de anuncios y borradores de locución. Texto a diálogo asigna diferentes voces a los distintos turnos de un guion, permitiendo conversaciones con múltiples interlocutores para pódcasts, diálogos de juegos, demos y storyboards. El modo diálogo también acepta etiquetas de interpretación por turno, de modo que la actuación de cada personaje puede dirigirse de forma independiente.
¿Qué etiquetas de interpretación se admiten?
Seed Audio reconoce etiquetas como [laughing], [whispering], [sighs], [short pause], [warmly], [curious] y otras que dirigen el tono emocional y el ritmo de la salida. Estas etiquetas se insertan directamente en el texto del guion en el punto donde debe cambiar la interpretación. Funcionan tanto en modo TTS como en modo diálogo, dando a los usuarios un control preciso sobre cómo suena una línea sin necesidad de edición de audio externa.
¿Cómo funciona el precio de Seed Audio?
Seed Audio utiliza un modelo de precios basado en créditos, donde cada generación de audio cuesta 1 crédito. Los créditos se compran a través de la plataforma NanoPhoto y se aplican a toda la suite de productos. Este modelo de pago por generación se adapta a usuarios con cargas de trabajo variables, desde borradores de locución ocasionales hasta producción de diálogos de alto volumen, sin necesidad de una suscripción mensual.
¿Para quién está diseñado Seed Audio?
Seed Audio está dirigido a creadores de contenido, editores de vídeo, podcasteros, desarrolladores de juegos y equipos de producto que necesitan activos de voz rápidos y publicables. Encaja en flujos de trabajo donde la velocidad importa, como maquetas de anuncios, locuciones de tutoriales, diálogos de personajes para juegos independientes y grabaciones de borradores de pódcasts. Los usuarios que antes abrían un estudio de audio dedicado para cada guion corto pueden completar la misma tarea en una fracción del tiempo.
¿Qué formatos de audio genera Seed Audio?
Seed Audio genera archivos MP3 que se pueden previsualizar directamente en el navegador y descargar para usar en software de edición de vídeo, herramientas de producción de pódcasts, motores de juegos y presentaciones. Se eligió MP3 como formato de salida por su equilibrio entre tamaño de archivo y calidad de audio, lo que lo hace práctico tanto para borradores rápidos como para activos finales.
¿Cómo se compara Seed Audio con las herramientas TTS independientes?
A diferencia de las herramientas TTS independientes que requieren cambiar entre aplicaciones para editar el guion, seleccionar la voz y exportar el audio, Seed Audio mantiene todo el flujo de trabajo dentro de la plataforma NanoPhoto. Los usuarios escriben, dirigen, renderizan, escuchan y descargan en una sola interfaz. El sistema integrado de etiquetas de interpretación y el modo de diálogo multi-voz eliminan la necesidad de sesiones de edición de audio separadas para ajustes básicos de actuación, reduciendo el tiempo de iteración de minutos a segundos por generación.
Cómo utilizar Seed Audio
- Escribe el guion fuente introduciendo un párrafo de locución o de dos a cuatro turnos de diálogo, o cuatro turnos centrados en un habla natural.
- Elige voces y estilo seleccionando una voz de narrador para conversión de texto a voz (TTS) o asignando una voz diferente a cada turno de diálogo para intercambio entre personajes.
- Añade etiquetas de interpretación como [warmly] (con calidez), [curious] (con curiosidad), [laughing] (riendo) o [short pause] (pausa breve) para guiar la entrega emocional y lograr un resultado más dirigido.
- Previsualiza el MP3 generado en el navegador para verificar la calidad, luego descarga el archivo de audio para ediciones de video, borradores de podcast, maquetas de anuncios o demostraciones de producto.
