Con Text-to-Speech, se generan datos de audio de voz natural y humana. Es decir, se crea audio que suena como la voz de una persona. Cuando envías una solicitud de síntesis a Text-to-Speech, debes especificar una voz.
Hay una amplia selección de voces disponibles para que elijas en Text-to-Speech. Las voces son de géneros distintos y hablan en diferentes idiomas y acentos (para algunos idiomas). Algunos idiomas tienen varias voces para elegir. Consulta la página de voces compatibles para obtener una lista completa de las voces disponibles en tu idioma. Para indicarle a Text-to-Speech que use una voz específica de esta lista, configura los campos VoiceSelectionParams
cuando envíes una solicitud a la API. Consulta las Guías de inicio rápido de Text-to-Speech para obtener detalles sobre cómo enviar una solicitud synthesize
.
Voces de recorrido (versión preliminar)
Las voces de Journey, potenciadas por el motor AudioLM, te permiten crear un habla más atractiva y empática para aplicaciones de conversación. A través de la transmisión de texto, Journey Voices produce una comunicación en tiempo real de baja latencia y admite los idiomas que se indican en la tabla de voces compatibles.
Experiencias de chat
en-US-Journey-F
Asistentes virtuales
en-US-Journey-D
Chatbots de atención al cliente
en-US-Journey-F
Aplicaciones educativas interactivas
en-US-Journey-O
Ventas y presentaciones
en-US-Journey-D
La hora de los cuentos
en-US-Journey-F
Voces informales (versión preliminar)
Las voces informales se diseñaron para administrar un diálogo imperfecto y conversacional para lograr naturalidad y comodidad con los usuarios humanos. Admiten errores de fluidez (oh, uh, um, mhm) y tienen una cadencia más natural y tono de voz.
Voces de Studio
Las voces de estudio son voces de narración diseñadas para la lectura de noticias y la transmisión de contenido.
Ejemplo 1. La voz en-US-Studio-O
que lee El gran Gatsby.
Voces de Neural2
La API de Text-to-Speech proporciona un nivel de voz llamado Neural2. Las voces Neural2 se basan en la misma tecnología que se usa para crear una voz personalizada. Neural2 permite que cualquier persona use la tecnología de Voz personalizada sin entrenar su propia voz. Están disponibles en extremos globales y de una sola región.
Ejemplo 1. Voz de Neural2
Voces generadas por WaveNet
La API de Text-to-Speech también ofrece un grupo de voces premium que se generan con un modelo de WaveNet, la misma tecnología que se usa para producir la voz del Asistente de Google, la Búsqueda de Google y Google Traductor. La tecnología de WaveNet no solo ofrece una serie de voces sintéticas, sino que representa una nueva forma de crearlas.
WaveNet genera una voz que tiene un sonido más natural que las de los demás sistemas de texto a voz. Sintetiza voces con un énfasis y una entonación en las sílabas, fonemas y palabras más parecidos al del habla humana.
Figura 1. Gráfico que muestra la comparación de WaveNet con otras voces sintéticas y la voz humana. Los valores del eje y representan la medición de Mean Opinion Score (MOS) para cada voz. Los sujetos de prueba clasifican cada voz en una escala del 1 al 5, según el sonido que se asemeja más a una voz natural. Para obtener más información acerca de las mediciones del MOS y la tecnología de WaveNet, consulta la página DeepMind WaveNet.
A diferencia de la mayoría de los demás sistemas de texto a voz, un modelo de WaveNet crea formas de onda de audio sin procesar desde cero. El modelo usa una red neuronal que se entrenó con una gran cantidad de muestras de voz. Durante el entrenamiento, la red extrae la estructura subyacente de la voz, como qué tonos van detrás de otros y cómo luce una forma de onda de voz real. Cuando se le proporciona una entrada de texto, el modelo entrenado de WaveNet puede generar las formas de onda de voz correspondientes desde cero, una muestra a la vez, con hasta 24,000 muestras por segundo y transiciones fluidas entre los sonidos individuales.
Para escuchar la diferencia entre un clip de audio generado con WaveNet y uno generado con otro tipo de proceso de texto a voz, compara los siguientes dos audios.
Ejemplo 1. Voz de alta calidad sin el uso de WaveNet
Ejemplo 2. Voz de WaveNet
Voces estándar
Las voces que ofrece Text-to-Speech difieren en la forma en que se producen, es decir, la tecnología de voz sintética que se usa para crear el modelo de máquina de la voz. Una tecnología de voz común es la síntesis de texto a voz paramétrica, que normalmente pasa los resultados por algoritmos de procesamiento de señales, conocidos como vocoders, para generar los datos de audio. Muchas de las voces estándar disponibles en Text-to-Speech usan una variación de esta tecnología.