Tipos de voces

Text-to-Speech genera audio con calidad natural y humana, lo que crea una voz que suena como la de una persona real. Para comenzar, especifica una voz cuando envíes una solicitud de síntesis.

Text-to-Speech ofrece una variedad de voces según el idioma, el género y el acento. Algunos idiomas tienen varias opciones. Para obtener una lista completa, consulta la página Voces compatibles. Para seleccionar una voz, usa el campo VoiceSelectionParams en tu solicitud a la API. Consulta las Guías de inicio rápido para obtener instrucciones sobre cómo realizar una solicitud synthesize.

Descripción general

Tipo de voz Destinado a Etapa de lanzamiento Controlabilidad Transmisión
Journey Agentes conversacionales
Vista previa -
Studio Grupo de dos bocinas Medios: debates y entrevistas

Experimental - -
Una persona que habla Contenido multimedia: Narración
DG SSML -
Neural2 Uso general
DG SSML -
Standard Eficiencia de costos
DG SSML -

Detalles de precios

Voces de recorrido

Las voces de Journey, potenciadas por el motor AudioLM, te permiten crear un habla más atractiva y empática para aplicaciones de conversación. A través de la transmisión de texto, Journey Voices produce una comunicación en tiempo real de baja latencia y admite los idiomas que se indican en la tabla de voces compatibles.

Experiencias de chat


Voz: en-US-Journey-F

Otros ejemplos

Asistentes virtuales


Voz: en-US-Journey-D

Chatbots de atención al cliente


Voz: en-US-Journey-F

Aplicaciones educativas interactivas


Voz: en-US-Journey-O

Ventas y presentaciones


Voz: en-US-Journey-D

La hora de los cuentos


Voz: en-US-Journey-F

Voces de Studio para varias bocinas

Crea debates y entrevistas con las nuevas voces de estudio de varias bocinas, que se basan en la misma tecnología que las voces de Journey.


Voces de estudio

Las voces de estudio están diseñadas para la lectura de noticias y la transmisión de contenido.


Ejemplo 1. La voz en-US-Studio-O que lee El gran Gatsby.

Voces de Neural2

La API de Text-to-Speech proporciona un nivel de voz llamado Neural2. Las voces Neural2 se basan en la misma tecnología que se usa para crear una voz personalizada. Neural2 permite que cualquier persona use la tecnología de Voz personalizada sin entrenar su propia voz. Están disponibles en extremos globales y de una sola región.


Ejemplo 1. Voz de Neural2

Voces estándar

Las voces que ofrece Text-to-Speech difieren en la forma en que se producen, es decir, la tecnología de voz sintética que se usa para crear el modelo de máquina de la voz. Una tecnología de voz común es la síntesis de texto a voz paramétrica, que normalmente pasa los resultados por algoritmos de procesamiento de señales, conocidos como vocoders, para generar los datos de audio. Muchas de las voces estándar disponibles en Text-to-Speech usan una variación de esta tecnología.