Text‑to‑Speech
Convierte texto en voz con sonido natural mediante una API con la tecnología de IA de Google.
Probar gratis-
Mejora las interacciones con los clientes gracias a respuestas inteligentes y naturales.
-
Interactúa con los usuarios mediante una interfaz de usuario de voz en tus dispositivos y aplicaciones.
-
Personaliza las comunicaciones en función de las preferencias de idioma y voz de los usuarios.
Ventajas
Voz de alta fidelidad
Implementa las tecnologías innovadoras de Google para generar voces con entonación similar a las de los seres humanos. La API se compiló según la experiencia de DeepMind en la síntesis de voz y ofrece voces de calidad casi idéntica a las humanas.
La selección de voces más amplia disponible
Elige entre un conjunto de más de 220 voces disponibles en más de 40 idiomas y variantes. Elige la voz que se adapte mejor a tus usuarios y aplicaciones.
Voz única
Crea una voz que represente tu marca en todos los puntos de contacto con tus clientes, en lugar de usar una voz común que también usan otras organizaciones.
Demostración
Implementa Text-to-Speech
Escribe lo que quieras, selecciona un idioma y haz clic en "Speak it" (Hablar) para escucharlo.
Características clave
Características clave
Voz personalizada (beta)
Entrena un modelo de síntesis de voz personalizado con tus propias grabaciones de audio a fin de crear una voz única para tu organización que suene más natural. Puedes definir y elegir el perfil de voz que se adapte a tu organización y ajustarlo con rapidez según los cambios que se requiera hacer en la voz, sin necesidad de grabar frases nuevas. Obtén más información.
Voces generadas por WaveNet
Aprovecha las más de 90 voces de WaveNet compiladas en función de la investigación innovadora de DeepMind para generar sonidos que reducen de manera significativa las diferencias con los patrones humanos.
Ajuste de voz
Personaliza el tono de la voz seleccionada hasta 20 semitonos más o menos que la voz predeterminada. Ajusta la velocidad del habla para que sea hasta 4 veces más rápida o lenta que la velocidad normal.
Compatibilidad con formatos de texto y SSML
Personaliza tu voz con etiquetas de SSML para agregar formatos de fecha y hora, pausas y números, además de otras instrucciones de pronunciación.
Novedades
Novedades
Regístrate para recibir los boletines informativos de Google Cloud con información sobre actualizaciones de productos, eventos, ofertas especiales y mucho más.
Documentación
Documentación
Conceptos básicos de Text-to-Speech
Una guía con los conceptos fundamentales para usar la API de Text-to-Speech.
Guía de inicio rápido: Cómo usar la línea de comandos
Configura tu proyecto y autorización de Google Cloud y envía una solicitud a Text-to-Speech para crear audio a partir de texto.
Idiomas y voces compatibles
Descubre qué idiomas son compatibles con Text-to-Speech y escucha ejemplos de las voces disponibles para cada uno de ellos.
Descripción general de Voz personalizada (beta)
Descubre cómo puedes crear una voz única que suene más natural con tus propias grabaciones de audio de calidad de estudio mediante la función Voz personalizada.
WaveNet y otras voces sintéticas
Obtén información sobre las distintas voces sintéticas disponibles para Text-to-Speech, incluidas las voces Premium generadas por WaveNet.
Reproduce direcciones en voz alta con SSML
En este instructivo se muestra cómo usar el lenguaje de marcado de síntesis de voz (SSML) para que se reproduzca un archivo de texto de direcciones.
Casos de uso
Casos de uso
Ofrece una mejor experiencia de voz para la atención al cliente mediante voces generadas de manera dinámica, en vez de reproducir un audio estático previamente grabado. Interactúa con voces sintetizadas de alta calidad que ofrecen una sensación de familiaridad y personalización a quienes realizan llamadas.
Ofrece una comunicación natural a tus usuarios. Para ello potencia los dispositivos de modo que usen voces similares a las humanas. Compila una interfaz de usuario de voz de extremo a extremo junto con Speech-to-Text y mejora la experiencia del usuario mediante interacciones sencillas y atractivas.
Implementa fácilmente la función de texto a voz en las EPG para proporcionar a los clientes una mejor experiencia del usuario y cumplir con los requisitos de accesibilidad de tus servicios y aplicaciones. Prueba la demostración.
Todas las características
Todas las características
Voz personalizada (beta) | Entrena un modelo de síntesis de voz personalizado con tus propias grabaciones de audio a fin de crear una voz única para tu organización que suene más natural. Puedes definir y elegir el perfil de voz que se adapte a tu organización y ajustarlo con rapidez según los cambios que se requiera hacer en la voz, sin necesidad de grabar frases nuevas. Obtén más información. |
Selección de idioma y voz | Elige entre una amplia selección de más de 220 voces disponibles en más de 40 idiomas y variantes. Pronto agregaremos más. |
Voces generadas por WaveNet | Aprovecha las más de 90 voces de WaveNet compiladas según la investigación innovadora de DeepMind para generar sonidos que reducen de manera significativa las diferencias con los patrones humanos. |
Compatibilidad con formatos de texto y SSML | Personaliza tu voz con etiquetas de SSML que te permiten agregar formatos de fecha y hora, pausas y números, además de otras instrucciones de pronunciación. |
Ajuste del tono | Personaliza el tono de la voz seleccionada hasta 20 semitonos más o menos que la voz predeterminada. |
Ajuste de la velocidad del habla | Personaliza la velocidad de habla para que sea hasta 4 veces más rápida o lenta que la velocidad normal. |
Control del aumento de volumen | Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta -96 dB. |
API de REST y gRPC integradas | Realiza integraciones sencillas con cualquier aplicación o dispositivo que pueda enviar solicitudes de REST o gRPC, incluidos teléfonos, computadoras de escritorio, tablets y dispositivos de IoT (p. ej., autos, TV o bocinas). |
Flexibilidad de formatos de audio | Puedes elegir entre una variedad de formatos de audio, como mp3, Linear16 y Ogg Opus. |
Perfiles de audio | Optimiza en función del tipo de bocina desde la que se reproducirá la voz, como auriculares o líneas telefónicas. |
Precios
Precios
Text-to-Speech se cobra por cada 1 millón de caracteres de texto procesado, una vez superado el nivel gratuito.
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Google Cloud.