Esta página se ha traducido con Cloud Translation API.
Switch to English

Voces estándar y generadas por WaveNet

Descripción general

Con Text-to-Speech, creas datos de audio sin procesar de voz humana natural. Es decir, se crea audio que suena como la voz de una persona. Cuando envías una solicitud de síntesis a Text-to-Speech, debes especificar una voz que “diga” las palabras.

Hay una amplia selección de voces disponibles para que elijas en Text-to-Speech. Las voces son de géneros distintos y hablan en diferentes idiomas y acentos (para algunos idiomas). Algunos idiomas tienen varias voces para elegir. Consulta la página Voces compatibles para obtener una lista completa de las voces disponibles en tu idioma. Puedes indicarle a Text-to-Speech que use una voz específica de esta lista si configuras los campos VoiceSelectionParams cuando envías una solicitud a la API. Consulta las Guías de inicio rápido de Text-to-Speech para obtener más información sobre cómo enviar una solicitud synthesize.

Voces estándar

Las voces que ofrece Text-to-Speech difieren en cómo se producen, la tecnología de voz sintética que se usa para crear el modelo de máquina de la voz. Una tecnología de voz común es la síntesis de texto a voz paramétrica, que normalmente pasa los resultados por algoritmos de procesamiento de señales, conocidos como vocoders, para generar los datos de audio. Muchas de las voces estándar disponibles en Text-to-Speech usan una variación de esta tecnología.

Voces generadas por WaveNet

La API de Text-to-Speech también ofrece un grupo de voces premium que se generan con un modelo de WaveNet, la misma tecnología que se usa para producir la voz del Asistente de Google, la Búsqueda de Google y Google Traductor. La tecnología de WaveNet no solo ofrece una serie de voces sintéticas, sino que representa una nueva forma de crearlas.

WaveNet genera una voz que tiene un sonido más natural que las de los demás sistemas de texto a voz. Sintetiza voces con un énfasis y una entonación en las sílabas, fonemas y palabras más parecidos al del habla humana. En promedio, WaveNet produce audio de voces que las personas prefieren; en comparación con otras tecnologías de síntesis de texto a voz.

En el gráfico, se muestra que WaveNet tiene la preferencia más alta por hablantes nativos Figura 1. Gráfico que muestra la comparación de WaveNet con otras voces sintéticas y la voz humana. Los valores del eje y representan la medición de Mean Opinion Score (MOS) para cada voz. Los sujetos de prueba clasifican cada voz en una escala del 1 al 5, según el sonido que se asemeja más a una voz natural. Para obtener más información acerca de las mediciones del MOS y la tecnología de WaveNet, consulta la página DeepMind WaveNet.

A diferencia de la mayoría de los demás sistemas de texto a voz, un modelo de WaveNet crea formas de onda de audio sin procesar desde cero. El modelo usa una red neuronal que se entrenó con una gran cantidad de muestras de voz. Durante el entrenamiento, la red extrae la estructura subyacente de la voz, como qué tonos van detrás de otros y cómo luce una forma de onda de voz real. Cuando se le proporciona una entrada de texto, el modelo entrenado de WaveNet puede generar las formas de onda de voz correspondientes desde cero, una muestra a la vez, con hasta 24,000 muestras por segundo y transiciones fluidas entre los sonidos individuales.

Para escuchar la diferencia entre un clip de audio generado con WaveNet y uno generado con otro tipo de proceso de texto a voz, compara los siguientes dos audios.


Ejemplo 1. Voz de alta calidad sin el uso de WaveNet


Ejemplo 2. Voz de WaveNet

Para obtener más información acerca de los modelos de WaveNet, lee esta entrada de blog de DeepMind.

Pruébalo tú mismo

Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de Text-to-Speech en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, luego, implementar cargas de trabajo.

Probar Text-to-Speech gratis