Cloud Text-to-Speech

Conversión de texto en voz con tecnología de aprendizaje automático

Probar gratis Ver la documentación

Síntesis de voz de alta fidelidad

Google Cloud Text-to-Speech convierte el texto en voz humana con más de 180 voces disponibles en más de 30 idiomas y variantes. Aplica la investigación revolucionaria en síntesis de voz (WaveNet) y las redes neuronales potentes de Google para producir audio de alta fidelidad. Con esta API fácil de usar, puedes crear interacciones con tus usuarios como si fueran en vivo, lo que te permitirá transformar la atención al cliente, la interacción entre dispositivos y otras aplicaciones.

Síntesis de voz de alta fidelidad

Convierte texto en voz ahora mismo

Escribe lo que quieras, selecciona un idioma y haz clic en “Hablar” para escuchar.

Con la tecnología de aprendizaje automático de Google

Aplica los algoritmos avanzados de la red neuronal de aprendizaje profundo para sintetizar el texto en una variedad de voces y de idiomas. Nuestras redes neuronales se crearon con base en el conocimiento experto en síntesis de voz de Google.

Aprendizaje automático de Google

Selecciona entre más de 180 voces

Google Cloud Text-to-Speech ofrece una selección entre más de 180 voces en más de 30 idiomas y variantes, lo que permite a los desarrolladores elegir la voz que mejor se adapte a sus aplicaciones.

Selecciona entre más de 180 voces

Incluye acceso exclusivo a la tecnología de WaveNet

DeepMind realizó una investigación revolucionaria en modelos de aprendizaje automático para imitar voces y sonidos humanos con mayor naturalidad, lo que reduce las diferencias con el desempeño humano un 70%. Cloud Text-to-Speech ofrece acceso exclusivo a más de 90 voces de WaveNet, y se seguirán agregando otras con el tiempo.

Voces WaveNet de DeepMind

Se integra con facilidad en las aplicaciones y los dispositivos existentes

Cloud Text-to-Speech es compatible con cualquier aplicación o dispositivo que pueda enviar una solicitud de REST o gRPC, incluidos los teléfonos, las computadoras de escritorio, las tablets y los dispositivos de IoT (por ejemplo, autos, TV y bocinas).

Se integra con facilidad en las aplicaciones y los dispositivos existentes

Compatible con muchos casos prácticos comunes

Google Cloud Text-to-Speech es una API fácil de usar y una solución flexible para crear experiencias naturales en una variedad de casos prácticos. Entre los más comunes, se incluyen la automatización de centros de atención telefónica, las respuestas interactivas de los dispositivos de IoT o la transformación de texto en audio para escuchar.

Compatible con muchos casos prácticos comunes
Símbolo de Text-to-Speech

Características de Cloud Text-to-Speech

Multilingüe
Admite más de 180 voces en más de 30 idiomas y variantes, y se agregarán más próximamente.
Voces generadas por WaveNet
Acceso exclusivo a las versiones multilingües de las voces WaveNet de DeepMind que ofrecen el sonido más natural.
Compatibilidad con formatos de texto y SSML
Personaliza tu voz con etiquetas de SSML que te permiten agregar formatos de pausas, de números y de fecha y hora, además de otras instrucciones de pronunciación.
Ajuste de la velocidad del habla
Personaliza la velocidad del habla para que sea hasta 4 veces más rápida o lenta que la velocidad normal.
Ajuste del tono de voz
Personaliza el tono de la voz seleccionada, hasta 20 semitonos más o menos que el predeterminado.
Control del aumento de volumen
Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta -96 dB.
Flexibilidad de formatos de audio
Puedes elegir entre una variedad de formatos de audio, como mp3, Linear16 y Ogg Opus.
Perfiles de audio
Optimiza el tipo de bocina desde el que se reproducirá la voz, como auriculares o líneas telefónicas.

Precios de Cloud Text-to-Speech

Síntesis de voz de alta fidelidad

Cloud Text-to-Speech se cobra por cada 1 millón de caracteres de texto procesado, una vez superado el nivel gratuito de 1 millón de caracteres. Para conocer los detalles, consulta nuestra guía de precios.

Característica Nivel gratuito mensual Uso pago
Voces estándar (no mediante WaveNet) De 0 a 4 millones de caracteres $4.00 por 1 millón de caracteres
Voces generadas por WaveNet De 0 a 1 millón de caracteres $16.00 USD por 1 millón de caracteres
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.
Logotipo de Text-to-Speech
Un producto o función que se describe en esta página está en versión Beta. Para obtener más información sobre las etapas de lanzamiento de nuestros productos, haz clic aquí.
Los productos de IA de Cloud satisfacen las políticas del ANS que se indican aquí. Es posible que ofrezcan garantías de latencia o disponibilidad distintas de otros servicios de Google Cloud.

Enviar comentarios sobre…

API de Cloud Text-to-Speech
¿Necesitas ayuda? Visita nuestra página de asistencia.