Text‑to‑Speech

Convierte texto en voz con sonido natural mediante una API con la tecnología de IA de Google.

Probar gratis
  • action/check_circle_24pxCreado con Sketch.

    Mejora las interacciones con los clientes gracias a respuestas inteligentes y naturales.

  • action/check_circle_24pxCreado con Sketch.

    Interactúa con los usuarios mediante una interfaz de usuario de voz en tus dispositivos y aplicaciones.

  • action/check_circle_24pxCreado con Sketch.

    Personaliza las comunicaciones en función de las preferencias de idioma y voz de los usuarios.

Voz de alta fidelidad

Implementa las tecnologías innovadoras de Google para generar voces con entonación similar a las de los seres humanos. La API se compiló con base en la experiencia de DeepMind en la síntesis de voz y ofrece voces de calidad casi idéntica a las humanas.

La selección de voces más amplia disponible

Elige entre un conjunto de más de 220 voces disponibles en más de 40 idiomas y variantes. Elige la voz que se adapte mejor a tus usuarios y aplicaciones.

Innovación acelerada

Combina lo mejor de las tecnologías de Google de Translation y Speech-to-Text para acceder a casos prácticos como contenido de audio multilingüe y bots de voz.

Implementa Text-to-Speech

Escribe lo que quieras, selecciona un idioma y haz clic en "Speak it" (Hablar) para escuchar.

Características clave

Voces generadas por WaveNet

Aprovecha las más de 90 voces de WaveNet compiladas con base en la investigación innovadora de DeepMind para generar sonidos que reducen de manera significativa las diferencias con los patrones humanos.

Ajuste de voz

Personaliza el tono de la voz seleccionada hasta 20 semitonos más o menos que la voz predeterminada. Ajusta la velocidad del habla para que sea hasta 4 veces más rápida o lenta que la velocidad normal.

Compatibilidad con formatos de texto y SSML

Personaliza tu voz con etiquetas de SSML para agregar formatos de fecha y hora, pausas y números, además de otras instrucciones de pronunciación.

Ver todas las características

Novedades

Regístrate para recibir los boletines informativos de Google Cloud con información sobre actualizaciones de productos, eventos, ofertas especiales y mucho más.

Documentación

Conceptos básicos de Google Cloud
Conceptos básicos de Text-to-Speech

Una guía con los conceptos fundamentales para usar la API de Text-to-Speech.

Guía de inicio rápido
Guía de inicio rápido: Usa la línea de comandos

Configura tu proyecto y autorización de Google Cloud y envía una solicitud a Text-to-Speech para crear audio a partir de texto.

Conceptos básicos de Google Cloud
Idiomas y voces compatibles

Descubre qué idiomas son compatibles con Text-to-Speech y escucha ejemplos de las voces disponibles para cada uno de ellos.

Instructivo
WaveNet y otras voces sintéticas

Obtén información sobre las distintas voces sintéticas disponibles para Text-to-Speech, incluidas las voces Premium generadas por WaveNet.

Instructivo
Reproduce direcciones en voz alta con SSML

En este instructivo se muestra cómo usar el lenguaje de marcación de síntesis de voz (SSML) para que se reproduzca un archivo de texto de direcciones.

Casos prácticos

Caso práctico
Bots de voz en centros de contacto

Ofrece una mejor experiencia de voz para la atención al cliente mediante voces generadas de manera dinámica, en vez de reproducir un audio estático previamente grabado. Interactúa con voces sintetizadas de alta calidad que ofrecen una sensación de familiaridad y personalización a quienes realizan llamadas.

Arquitectura de referencia de bots de voz en centros de contacto
Caso práctico
Generación de voz en dispositivos

Ofrece una comunicación natural a tus usuarios. Para ello potencia los dispositivos de modo que usen voces similares a las humanas. Compila una interfaz de usuario de voz de extremo a extremo junto con Speech-to-Text y mejora la experiencia del usuario mediante interacciones sencillas y atractivas.

Arquitectura de referencia de generación de voz en dispositivos

Todas las funciones

Selección de idioma y voz Elige entre una amplia selección de más de 220 voces disponibles en más de 40 idiomas y variantes. Pronto agregaremos más.
Voces generadas por WaveNet Aprovecha las más de 90 voces de WaveNet compiladas con base en la investigación innovadora de DeepMind para generar sonidos que reducen de manera significativa las diferencias con los patrones humanos.
Compatibilidad con formatos de texto y SSML Personaliza tu voz con etiquetas de SSML que te permiten agregar formatos de fecha y hora, pausas y números, además de otras instrucciones de pronunciación.
Ajuste del tono Personaliza el tono de la voz seleccionada hasta 20 semitonos más o menos que la voz predeterminada.
Ajuste de la velocidad del habla Personaliza la velocidad de habla para que sea hasta 4 veces más rápida o lenta que la velocidad normal.
Control del aumento de volumen Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta -96 dB.
API de REST y gRPC integradas Realiza integraciones sencillas con cualquier aplicación o dispositivo que pueda enviar solicitudes de REST o gRPC, incluidos teléfonos, computadoras de escritorio, tablets y dispositivos de IoT (p. ej., autos, TVs o bocinas).
Flexibilidad de formatos de audio Puedes elegir entre una variedad de formatos de audio, como mp3, Linear16 y Ogg Opus.
Perfiles de audio Optimiza en función del tipo de bocina desde la que se reproducirá la voz, como auriculares o líneas telefónicas.

Precios

Text-to-Speech se cobra por cada 1 millón de caracteres de texto procesado, una vez superado el nivel gratuito.

Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Google Cloud.