Voces estándar, generadas por WaveNet, Neural2 y Studio

Descripción general

Con Text-to-Speech, creas datos de audio sin procesar de voz humana natural. Es decir, se crea audio que suena como la voz de una persona. Cuando envías una solicitud de síntesis a Text-to-Speech, debes especificar una voz que “diga” las palabras.

Hay una amplia selección de voces disponibles para que elijas en Text-to-Speech. Las voces son de géneros distintos y hablan en diferentes idiomas y acentos (para algunos idiomas). Algunos idiomas tienen varias voces para elegir. Consulta la página de voces compatibles para obtener una lista completa de las voces disponibles en tu idioma. Para indicarle a Text-to-Speech que use una voz específica de esta lista, configura los campos VoiceSelectionParams cuando envíes una solicitud a la API. Consulta las Guías de inicio rápido de Text-to-Speech para obtener detalles sobre cómo enviar una solicitud synthesize.

Voces de Neural2

La API de Text-to-Speech proporciona un nivel de voz premium llamado Neural2. Las voces Neural2 se basan en la misma tecnología que se usa para crear una voz personalizada. Neural2 representa la última generación de voz sintética y permite que todos usen la tecnología de voz personalizada sin entrenar su propia voz. Están disponibles en extremos globales y de una sola región.


Ejemplo 1. Voz de Neural2

Voces de Studio (versión preliminar)

La API de Text-to-Speech proporciona voces de Studio. Este tipo de voz está diseñado específicamente para usarse con textos largos, como la narración y la lectura de noticias.


Ejemplo 1. La voz en-US-Studio-O que lee El gran Gatsby.

Voces estándar

Las voces que ofrece Text-to-Speech difieren en la forma en que se producen, es decir, la tecnología de voz sintética que se usa para crear el modelo de máquina de la voz. Una tecnología de voz común es la síntesis de texto a voz paramétrica, que normalmente pasa los resultados por algoritmos de procesamiento de señales, conocidos como vocoders, para generar los datos de audio. Muchas de las voces estándar disponibles en Text-to-Speech usan una variación de esta tecnología.

Voces generadas por WaveNet

La API de Text-to-Speech también ofrece un grupo de voces premium que se generan con un modelo de WaveNet, la misma tecnología que se usa para producir la voz del Asistente de Google, la Búsqueda de Google y Google Traductor. La tecnología de WaveNet no solo ofrece una serie de voces sintéticas, sino que representa una nueva forma de crearlas.

WaveNet genera una voz que tiene un sonido más natural que las de los demás sistemas de texto a voz. Sintetiza voces con un énfasis y una entonación en las sílabas, fonemas y palabras más parecidos al del habla humana.

En el gráfico, se muestra que WaveNet tiene la preferencia más alta por hablantes nativos Figura 1. Gráfico que muestra la comparación de WaveNet con otras voces sintéticas y la voz humana. Los valores del eje y representan la medición de Mean Opinion Score (MOS) para cada voz. Los sujetos de prueba clasifican cada voz en una escala del 1 al 5, según el sonido que se asemeja más a una voz natural. Para obtener más información acerca de las mediciones del MOS y la tecnología de WaveNet, consulta la página DeepMind WaveNet.

A diferencia de la mayoría de los demás sistemas de texto a voz, un modelo de WaveNet crea formas de onda de audio sin procesar desde cero. El modelo usa una red neuronal que se entrenó con una gran cantidad de muestras de voz. Durante el entrenamiento, la red extrae la estructura subyacente de la voz, como qué tonos van detrás de otros y cómo luce una forma de onda de voz real. Cuando se le proporciona una entrada de texto, el modelo entrenado de WaveNet puede generar las formas de onda de voz correspondientes desde cero, una muestra a la vez, con hasta 24,000 muestras por segundo y transiciones fluidas entre los sonidos individuales.

Para escuchar la diferencia entre un clip de audio generado con WaveNet y uno generado con otro tipo de proceso de texto a voz, compara los siguientes dos audios.


Ejemplo 1. Voz de alta calidad sin el uso de WaveNet


Ejemplo 2. Voz de WaveNet

Pruébalo tú mismo

Si es la primera vez que usas Google Cloud, crea una cuenta para evaluar el rendimiento de Text-to-Speech en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

Probar Text-to-Speech gratis