Text-to-Speech genera audio con calidad natural y humana, lo que crea una voz que suena como la de una persona real. Para comenzar, especifica una voz cuando envíes una solicitud de síntesis.
Text-to-Speech ofrece una variedad de voces según el idioma, el género y el acento. Algunos idiomas tienen varias opciones. Para obtener una lista completa, consulta la página Voces compatibles. Para seleccionar una voz, usa el campo VoiceSelectionParams
en tu solicitud a la API. Consulta las Guías de inicio rápido para obtener instrucciones sobre cómo realizar una solicitud synthesize
.
Descripción general
Tipo de voz | Destinado a | Etapa de lanzamiento | Controlabilidad | Transmisión | |
---|---|---|---|---|---|
Journey |
Agentes conversacionales
|
Vista previa | - | Sí | |
Studio | Grupo de dos bocinas |
Medios: debates y entrevistas
|
Experimental | - | - |
Una persona que habla |
Contenido multimedia: Narración
|
DG | SSML | - | |
Neural2 |
Uso general
|
DG | SSML | - | |
Standard |
Eficiencia de costos
|
DG | SSML | - |
Voces de recorrido
Las voces de Journey, potenciadas por el motor AudioLM, te permiten crear un habla más atractiva y empática para aplicaciones de conversación. A través de la transmisión de texto, Journey Voices produce una comunicación en tiempo real de baja latencia y admite los idiomas que se indican en la tabla de voces compatibles.
Experiencias de chat
Voz: en-US-Journey-F
Otros ejemplos
Asistentes virtuales
en-US-Journey-D
Chatbots de atención al cliente
en-US-Journey-F
Aplicaciones educativas interactivas
en-US-Journey-O
Ventas y presentaciones
en-US-Journey-D
La hora de los cuentos
en-US-Journey-F
Voces de Studio para varias bocinas
Crea debates y entrevistas con las nuevas voces de estudio de varias bocinas, que se basan en la misma tecnología que las voces de Journey.
Voces de estudio
Las voces de estudio están diseñadas para la lectura de noticias y la transmisión de contenido.
Ejemplo 1. La voz en-US-Studio-O
que lee El gran Gatsby.
Voces de Neural2
La API de Text-to-Speech proporciona un nivel de voz llamado Neural2. Las voces Neural2 se basan en la misma tecnología que se usa para crear una voz personalizada. Neural2 permite que cualquier persona use la tecnología de Voz personalizada sin entrenar su propia voz. Están disponibles en extremos globales y de una sola región.
Ejemplo 1. Voz de Neural2
Voces estándar
Las voces que ofrece Text-to-Speech difieren en la forma en que se producen, es decir, la tecnología de voz sintética que se usa para crear el modelo de máquina de la voz. Una tecnología de voz común es la síntesis de texto a voz paramétrica, que normalmente pasa los resultados por algoritmos de procesamiento de señales, conocidos como vocoders, para generar los datos de audio. Muchas de las voces estándar disponibles en Text-to-Speech usan una variación de esta tecnología.