Text-to-Speech genera audio con calidad natural y humana, lo que crea una voz que suena como la de una persona real. Para comenzar, especifica una voz cuando envíes una solicitud de síntesis.
Text-to-Speech ofrece una variedad de voces según el idioma, el género y el acento. Algunos idiomas tienen varias opciones. Para obtener una lista completa, consulta la página Voces compatibles. Para seleccionar una voz, usa el campo VoiceSelectionParams
en tu solicitud a la API.
Descripción general
Tipo de voz | Destinado a | Etapa de lanzamiento | Controlabilidad | Transmisión | |
---|---|---|---|---|---|
Chirp 3: Voces HD |
Agentes conversacionales
|
Vista previa | - | Yes | |
Voces de Chirp HD |
Agentes conversacionales
|
Vista previa | - | Yes | |
Studio | Grupo de dos bocinas |
Contenido multimedia: debates y entrevistas
|
Experimental | - | - |
Una persona que habla |
Contenido multimedia: Narración
|
DG | SSML | - | |
Neural2 |
Uso general
|
DG | SSML | - | |
Standard |
Eficiencia de costos
|
DG | SSML | - |
Chirp 3: Voces en HD
Chirp 3: Las voces HD se basan en una tecnología que captura los matices de la entonación humana, lo que hace que las conversaciones sean más atractivas. Estas voces están disponibles en 8 estilos distintos en muchos idiomas, adecuados para aplicaciones estándar y en tiempo real.
Voces de Chirp HD
Las voces de Chirp HD se basan en la generación más reciente de nuestros modelos de IA generativa. Las voces de Chirp HD te permiten crear un habla más atractiva y empática para aplicaciones de conversación. A través de la transmisión de texto, las voces de Chirp HD producen una comunicación en tiempo real de baja latencia y admiten los idiomas que se indican en la tabla de voces compatibles.
Experiencias de chat
Voz: en-US-Chirp-HD-F
Otros ejemplos
Asistentes virtuales
en-US-Chirp-HD-D
Chatbots de atención al cliente
en-US-Chirp-HD-F
Aplicaciones educativas interactivas
en-US-Chirp-HD-O
Ventas y presentaciones
en-US-Chirp-HD-D
La hora de los cuentos
en-US-Chirp-HD-F
Voces de Studio para varias bocinas
Crea debates y entrevistas con las nuevas voces de estudio de varias bocinas, que se basan en la misma tecnología que las voces de Chirp HD.
Ejemplo: voces de varias bocinas de Studio
Voces de estudio
Las voces de estudio están diseñadas para la lectura de noticias y la transmisión de contenido.
Ejemplo: La voz en-US-Studio-O
que lee El gran Gatsby.
Voces de Neural2
La API de Text-to-Speech proporciona un nivel de voz llamado Neural2. Las voces Neural2 se basan en la misma tecnología que se usa para crear una voz personalizada. Neural2 permite que cualquier persona use la tecnología de Voz personalizada sin entrenar su propia voz. Están disponibles en extremos globales y de una sola región.
Ejemplo: Voz de Neural2
Voces estándar
Las voces que ofrece Text-to-Speech difieren en la tecnología de voz sintética que se usa para crear el modelo de máquina de la voz. Una tecnología de voz común es la síntesis de texto a voz paramétrica, que normalmente pasa los resultados por algoritmos de procesamiento de señales, conocidos como vocoders, para generar los datos de audio. Muchas de las voces estándar disponibles en Text-to-Speech usan una variación de esta tecnología.
¿Qué sigue?
Consulta las Guías de inicio rápido para obtener instrucciones sobre cómo realizar una solicitud synthesize
.