Tipos de voces

Descripción general

Con Text-to-Speech, se generan datos de audio de voz natural y humana. Es decir, se crea audio que suena como la voz de una persona. Cuando envías una solicitud de síntesis a Text-to-Speech, debes especificar una voz.

Hay una amplia selección de voces disponibles para que elijas en Text-to-Speech. Las voces son de géneros distintos y hablan en diferentes idiomas y acentos (para algunos idiomas). Algunos idiomas tienen varias voces para elegir. Consulta la página de voces compatibles para obtener una lista completa de las voces disponibles en tu idioma. Para indicarle a Text-to-Speech que use una voz específica de esta lista, configura los campos VoiceSelectionParams cuando envíes una solicitud a la API. Consulta las Guías de inicio rápido de Text-to-Speech para obtener detalles sobre cómo enviar una solicitud synthesize.

Voces de recorrido

Las voces de Journey (experimentales) están respaldadas por avances en los modelos de lenguaje grandes, lo que mejora la riqueza prosódica. Las voces de Journey pueden administrar un rango más amplio de tono, volumen, tono y longitud. También tienen mecanismos de voz mejorados, lo que los mejora en el manejo de las fluctuaciones y las interrupciones en comparación con nuestras otras opciones de voz. Te recomendamos experimentar con estas voces para los casos prácticos de voz conversacional.


Ejemplo 1. La voz en-US-Journey-D

Voces informales (versión preliminar)

Las voces informales se diseñaron para administrar un diálogo imperfecto y conversacional para lograr naturalidad y comodidad con los usuarios humanos. Admiten errores de fluidez (oh, uh, um, mhm) y tienen una cadencia más natural y tono de voz.


Voces de Studio

La API de Text-to-Speech proporciona un nivel de voz premium llamado Studio. Este tipo de voz se diseñó específicamente para su uso con textos de formato largo, como la narración y la lectura de noticias.


Ejemplo 1. La voz en-US-Studio-O que lee El gran Gatsby.

Voces de Neural2

La API de Text-to-Speech proporciona un nivel de voz llamado Neural2. Las voces Neural2 se basan en la misma tecnología que se usa para crear una voz personalizada. Neural2 permite que cualquier persona use la tecnología de Voz personalizada sin entrenar su propia voz. Están disponibles en extremos globales y de una sola región.


Ejemplo 1. Voz de Neural2

Voces generadas por WaveNet

La API de Text-to-Speech también ofrece un grupo de voces premium que se generan con un modelo de WaveNet, la misma tecnología que se usa para producir la voz del Asistente de Google, la Búsqueda de Google y Google Traductor. La tecnología de WaveNet no solo ofrece una serie de voces sintéticas, sino que representa una nueva forma de crearlas.

WaveNet genera una voz que tiene un sonido más natural que las de los demás sistemas de texto a voz. Sintetiza voces con un énfasis y una entonación en las sílabas, fonemas y palabras más parecidos al del habla humana.

En el gráfico, se muestra que WaveNet tiene la preferencia más alta por hablantes nativos Figura 1. Gráfico que muestra la comparación de WaveNet con otras voces sintéticas y la voz humana. Los valores del eje y representan la medición de Mean Opinion Score (MOS) para cada voz. Los sujetos de prueba clasifican cada voz en una escala del 1 al 5, según el sonido que se asemeja más a una voz natural. Para obtener más información acerca de las mediciones del MOS y la tecnología de WaveNet, consulta la página DeepMind WaveNet.

A diferencia de la mayoría de los demás sistemas de texto a voz, un modelo de WaveNet crea formas de onda de audio sin procesar desde cero. El modelo usa una red neuronal que se entrenó con una gran cantidad de muestras de voz. Durante el entrenamiento, la red extrae la estructura subyacente de la voz, como qué tonos van detrás de otros y cómo luce una forma de onda de voz real. Cuando se le proporciona una entrada de texto, el modelo entrenado de WaveNet puede generar las formas de onda de voz correspondientes desde cero, una muestra a la vez, con hasta 24,000 muestras por segundo y transiciones fluidas entre los sonidos individuales.

Para escuchar la diferencia entre un clip de audio generado con WaveNet y uno generado con otro tipo de proceso de texto a voz, compara los siguientes dos audios.


Ejemplo 1. Voz de alta calidad sin el uso de WaveNet


Ejemplo 2. Voz de WaveNet

Voces estándar

Las voces que ofrece Text-to-Speech difieren en la forma en que se producen, es decir, la tecnología de voz sintética que se usa para crear el modelo de máquina de la voz. Una tecnología de voz común es la síntesis de texto a voz paramétrica, que normalmente pasa los resultados por algoritmos de procesamiento de señales, conocidos como vocoders, para generar los datos de audio. Muchas de las voces estándar disponibles en Text-to-Speech usan una variación de esta tecnología.

Pruébalo tú mismo

Si es la primera vez que usas Google Cloud, crea una cuenta para evaluar el rendimiento de Text-to-Speech en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

Probar Text-to-Speech gratis