Cloud Text-to-SpeechBeta

Conversión de texto a voz con tecnología de aprendizaje automático.

Pruébalo gratis

Síntesis de voz de alta fidelidad

Google Cloud Text-to-Speech permite que los desarrolladores sinteticen una pronunciación con sonido natural a través de 30 voces disponibles en varios idiomas y variantes. Esta tecnología aplica la investigación revolucionaria de DeepMind en las redes neuronales de WaveNet y Google para producir un audio de alta fidelidad. Con esta API fácil de usar, puedes crear interacciones como si fuera en vivo con tus usuarios, entre varias aplicaciones y dispositivos diferentes.

Síntesis de voz de alta fidelidad

Convierte texto en voz ahora mismo

Escribe lo que quieras, selecciona un idioma y haz clic en "Speak it" para escuchar.

Con la tecnología de aprendizaje automático de Google

Aplica los algoritmos avanzados de la red neuronal de aprendizaje profundo para sintetizar el texto en una variedad de voces y de idiomas. Nuestras redes neuronales se crearon con base en el conocimiento experto en síntesis de voz de Google.

Aprendizaje automático de Google

Incluye acceso exclusivo a las voces WaveNet de DeepMind

DeepMind realizó una investigación revolucionaria en modelos de aprendizaje automático para imitar voces y sonidos humanos con mayor naturalidad, lo que reduce las diferencias con el desempeño humano en un 50%. Cloud Text-to-Speech ofrece acceso exclusivo a las diversas voces WaveNet y se seguirán agregando otras con el tiempo.

Voces WaveNet de DeepMind

Selecciona entre más de 30 voces

Google Cloud Text-to-Speech ofrece una selección de más de 30 voces en 14 idiomas y variantes, lo que permite a los desarrolladores elegir la voz que funcione mejor con su aplicación.

Selecciona entre más de 30 voces

Se integra con facilidad en las aplicaciones y los dispositivos existentes

Cloud Text-to-Speech es compatible con cualquier aplicación o dispositivo que pueda enviar una solicitud de REST o gRPC, incluidos los teléfonos, las computadoras de escritorio, las tablets y los dispositivos de IoT (p. ej., autos, TVs y bocinas).

Se integra con facilidad en las aplicaciones y los dispositivos existentes

Compatible con muchos casos prácticos comunes

Google Cloud Text-to-Speech es una API fácil de usar y una solución flexible para crear experiencias naturales en una variedad de casos prácticos. Entre los casos prácticos comunes se incluyen la automatización de un centro de atención telefónica, las respuestas interactivas de los dispositivos de IoT o la transformación de texto en audio para escuchar.

Compatible con muchos casos prácticos comunes

Características de Cloud Text-to-Speech

Multilingüe
Admite más de 30 voces en 14 idiomas y variantes, y se agregarán más próximamente.
Voces generadas por WaveNet
Acceso exclusivo a las versiones multilingües de las voces WaveNet de DeepMind que ofrecen el sonido más natural.
Compatibilidad con formatos de texto y SSML
Personaliza tu voz con etiquetas de SSML que te permiten agregar formatos de pausas, números y de fecha y hora, además de otras instrucciones de pronunciación.
Ajuste de la velocidad del habla
Personaliza la velocidad del habla hasta 4 veces más rápida o lenta que la velocidad normal.
Ajuste del tono de voz
Personaliza el tono de la voz seleccionada, hasta 20 semitonos más o menos que la predeterminada.
Control del aumento de volumen
Aumenta el volumen de la voz en hasta 16 dB o disminúyelo hasta -96 dB.
Flexibilidad de formatos de audio
Puedes elegir entre una variedad de formatos de audio, como mp3, Linear16 y Ogg Opus.
Perfiles de audioBETA
Optimiza el tipo de bocina desde el que se reproducirá la voz, como auriculares o líneas telefónicas.

Precios de CLOUD Text-to-Speech

Síntesis de voz de alta fidelidad

Cloud Text-to-Speech se cobra por cada 1 millón de caracteres de texto procesado, una vez superado el nivel gratuito de 1 millón de caracteres. Para conocer los detalles, consulta nuestra guía de precios.

Característica Nivel gratuito mensual Uso pago
Voces estándar (no mediante WaveNet) De 0 a 4 millones de caracteres $4.00 por 1 millón de caracteres
Voces generadas por WaveNet De 0 a 1 millón de caracteres $16.00 USD por 1 millón de caracteres
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en las SKU de Cloud Platform.
Un producto o característica que se describe en esta página está en versión Beta. Para obtener más información sobre las etapas de lanzamiento de nuestros productos, haz clic aquí.

Enviar comentarios sobre…

Cloud Text-to-Speech API