Cloud Text-to-Speech
Conversión de texto a voz con tecnología de aprendizaje automático
Probar gratisVer la documentaciónSíntesis de voz de alta fidelidad
Google Cloud Text-to-Speech convierte el texto a voz humana con más de 180 voces disponibles en más de 30 idiomas y variantes. Aplica la investigación revolucionaria en síntesis de voz (WaveNet) y las redes neuronales potentes de Google para producir audio de alta fidelidad. Con esta API fácil de usar, puedes crear interacciones con tus usuarios como si fueran en vivo, lo que te permitirá transformar la Atención al cliente, la interacción entre dispositivos y otras aplicaciones.
Convierte texto a voz ahora mismo
Escribe lo que quieras, selecciona un idioma y haz clic en “Hablar” para escuchar.
Con la tecnología de aprendizaje automático de Google
Aplica los algoritmos avanzados de la red neuronal de aprendizaje profundo para sintetizar el texto en una variedad de voces y de idiomas. Nuestras redes neuronales se crearon con base en el conocimiento experto en síntesis de voz de Google.
Selecciona entre más de 180 voces
Google Cloud Text-to-Speech ofrece una selección con más de 180 voces en más de 30 idiomas y variantes, lo que permite a los desarrolladores elegir la voz que mejor se adapte a sus aplicaciones.
Incluye acceso exclusivo a la tecnología de WaveNet
DeepMind realizó una investigación revolucionaria en modelos de aprendizaje automático para imitar voces y sonidos humanos con mayor naturalidad, lo que reduce las diferencias con el desempeño humano un 70%. Cloud Text-to-Speech ofrece acceso exclusivo a más de 90 voces de WaveNet, y se seguirán agregando otras con el tiempo.
Se integra con facilidad en las aplicaciones y los dispositivos existentes
Cloud Text-to-Speech es compatible con cualquier aplicación o dispositivo que pueda enviar una solicitud de REST o gRPC, incluidos los teléfonos, las computadoras de escritorio, las tablets y los dispositivos de IoT (por ejemplo, autos, TV y bocinas).
Compatible con muchos casos prácticos comunes
Google Cloud Text-to-Speech es una API fácil de usar y una solución flexible para crear experiencias naturales en una variedad de casos prácticos. Entre los más comunes, se incluyen la automatización de centros de atención telefónica, las respuestas interactivas de los dispositivos de IoT o la transformación de texto en audio para escuchar.
Características de Cloud Text-to-Speech
- Multilingüe
- Admite más de 180 voces en más de 30 idiomas y variantes, y se agregarán más próximamente.
- Voces generadas por WaveNet
- Acceso exclusivo a las versiones multilingües de las voces WaveNet de DeepMind que ofrecen el sonido más natural.
- Compatibilidad con formatos de texto y SSML
- Personaliza tu voz con etiquetas de SSML que te permiten agregar formatos de pausas, de números y de fecha y hora, además de otras instrucciones de pronunciación.
- Ajuste de la velocidad del habla
- Personaliza la velocidad del habla para que sea hasta 4 veces más rápida o lenta que la velocidad normal.
- Ajuste del tono de voz
- Personaliza el tono de la voz seleccionada, hasta 20 semitonos más o menos que el predeterminado.
- Control del aumento de volumen
- Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta -96 dB.
- Flexibilidad de formatos de audio
- Puedes elegir entre una variedad de formatos de audio, como mp3, Linear16 y Ogg Opus.
- Perfiles de audio
- Optimiza el tipo de bocina desde el que se reproducirá la voz, como auriculares o líneas telefónicas.
Precios de Cloud Text-to-Speech
Síntesis de voz de alta fidelidad
Cloud Text-to-Speech se cobra por cada 1 millón de caracteres de texto procesado, una vez superado el nivel gratuito de 1 millón de caracteres. Para conocer los detalles, consulta nuestra guía de precios.
| Característica | Nivel gratuito mensual | Uso pago |
|---|---|---|
| Voces estándar (no mediante WaveNet) | De 0 a 4 millones de caracteres | $4.00 por 1 millón de caracteres |
| Voces generadas por WaveNet | De 0 a 1 millón de caracteres | $16.00 USD por 1 millón de caracteres |