Se usó la API de Cloud Translation para traducir esta página.

Voces admitidas

Text-to-Speech genera audio con calidad natural y humana, lo que crea una voz que suena como la de una persona real. Para comenzar, especifica una voz cuando envíes una solicitud de síntesis.

Text-to-Speech ofrece una variedad de voces según el idioma, el género y el acento. Algunos idiomas tienen varias opciones. Para obtener una lista completa, consulta la página Voces compatibles. Para seleccionar una voz, usa el campo VoiceSelectionParams en tu solicitud a la API.

Descripción general

Tipo de voz		Destinado a	Etapa de lanzamiento	Controlabilidad	Transmisión
Chirp 3: Voces HD		Agentes conversacionales	Vista previa	-	Yes
Voces de Chirp HD		Agentes conversacionales	Vista previa	-	Yes
Studio	Grupo de dos bocinas	Contenido multimedia: debates y entrevistas	Experimental	-	-
Studio	Una persona que habla	Contenido multimedia: Narración	DG	SSML	-
Neural2		Uso general	DG	SSML	-
Standard		Eficiencia de costos	DG	SSML	-

Detalles de precios

Chirp 3: Voces en HD

Chirp 3: Las voces HD se basan en una tecnología que captura los matices de la entonación humana, lo que hace que las conversaciones sean más atractivas. Estas voces están disponibles en 8 estilos distintos en muchos idiomas, adecuados para aplicaciones estándar y en tiempo real.

Voces de Chirp HD

Las voces de Chirp HD se basan en la generación más reciente de nuestros modelos de IA generativa. Las voces de Chirp HD te permiten crear un habla más atractiva y empática para aplicaciones de conversación. A través de la transmisión de texto, las voces de Chirp HD producen una comunicación en tiempo real de baja latencia y admiten los idiomas que se indican en la tabla de voces compatibles.

Experiencias de chat

Voz: en-US-Chirp-HD-F

Otros ejemplos

Asistentes virtuales

Voz: en-US-Chirp-HD-D

Chatbots de atención al cliente

Voz: en-US-Chirp-HD-F

Aplicaciones educativas interactivas

Voz: en-US-Chirp-HD-O

Ventas y presentaciones

Voz: en-US-Chirp-HD-D

La hora de los cuentos

Voz: en-US-Chirp-HD-F

Voces de Studio para varias bocinas

Crea debates y entrevistas con las nuevas voces de estudio de varias bocinas, que se basan en la misma tecnología que las voces de Chirp HD.

Ejemplo: voces de varias bocinas de Studio

Voces de estudio

Las voces de estudio están diseñadas para la lectura de noticias y la transmisión de contenido.

Ejemplo: La voz en-US-Studio-O que lee El gran Gatsby.

Voces de Neural2

La API de Text-to-Speech proporciona un nivel de voz llamado Neural2. Las voces Neural2 se basan en la misma tecnología que se usa para crear una voz personalizada. Neural2 permite que cualquier persona use la tecnología de Voz personalizada sin entrenar su propia voz. Están disponibles en extremos globales y de una sola región.

Ejemplo: Voz de Neural2

Voces estándar

Las voces que ofrece Text-to-Speech difieren en la tecnología de voz sintética que se usa para crear el modelo de máquina de la voz. Una tecnología de voz común es la síntesis de texto a voz paramétrica, que normalmente pasa los resultados por algoritmos de procesamiento de señales, conocidos como vocoders, para generar los datos de audio. Muchas de las voces estándar disponibles en Text-to-Speech usan una variación de esta tecnología.

¿Qué sigue?

Consulta las Guías de inicio rápido para obtener instrucciones sobre cómo realizar una solicitud synthesize.

Voces admitidas Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Descripción general

Chirp 3: Voces en HD

Voces de Chirp HD

Experiencias de chat

Otros ejemplos

Asistentes virtuales

Chatbots de atención al cliente

Aplicaciones educativas interactivas

Ventas y presentaciones

La hora de los cuentos

Voces de Studio para varias bocinas

Voces de estudio

Voces de Neural2

Voces estándar

¿Qué sigue?

Voces admitidas