Cloud Text-to-Speech

Conversión de texto en voz con la tecnología de aprendizaje automático

Pruébalo gratis Ver documentación

Síntesis de voz de alta fidelidad

La API Text‑to‑Speech de Google Cloud convierte texto escrito en un discurso oral y natural, con más de 100 voces y para más de 20 idiomas y variedades lingüísticas. Gracias a los revolucionarios avances de WaveNet en materia de síntesis del discurso y las potentes redes neuronales de Google, es posible ofrecer un audio de alta fidelidad. Además, esta API es muy fácil de usar y te permite propiciar interacciones naturales con los usuarios, lo cual te permite transformar por completo tu servicio de atención al cliente, la interacción con los dispositivos y otras aplicaciones.

Síntesis de voz de alta fidelidad

¿A qué esperas para convertir tu texto en voz?

Escribe lo que quieras, selecciona un idioma y haz clic en la opción de conversión a voz para oír lo que has escrito.

Utiliza la tecnología de aprendizaje automático de Google

Aplica algoritmos avanzados de aprendizaje profundo y redes neuronales para sintetizar texto en una amplia gama de voces e idiomas. En Google, aplicamos nuestros conocimientos sobre la síntesis de voz para diseñar nuestras redes neuronales.

Aprendizaje automático de Google

Elige entre más de 100 voces distintas

La API Text‑to‑Speech de Google Cloud ofrece más de 100 voces para más de 20 idiomas y variedades lingüísticas diferentes, lo que permite a los desarrolladores elegir la opción que mejor se adapte a sus aplicaciones.

Elige entre más de 100 voces distintas

Acceso exclusivo a la tecnología WaveNet

Los revolucionarios avances de DeepMind en los modelos de aprendizaje automático han permitido generar voces y sonidos más naturales que reducen en un 70 % las diferencias respecto a la expresión humana. La API Cloud Text‑to‑Speech ofrece acceso exclusivo a más de 50 voces de WaveNet, y se seguirán añadiendo más con el paso del tiempo.

Voces de la red WaveNet de DeepMind

Integración sencilla con aplicaciones y dispositivos actuales

Cloud Text‑to‑Speech es compatible con cualquier aplicación o dispositivo que pueda enviar solicitudes REST o gRPC, como teléfonos, ordenadores, tablets y dispositivos del Internet de las cosas (por ejemplo, coches, televisores o altavoces).

Integración sencilla con aplicaciones y dispositivos actuales

Compatibilidad con muchos casos prácticos comunes

La API Google Cloud Text‑to‑Speech es una solución flexible y fácil de usar que permite crear experiencias naturales en una amplia variedad de casos prácticos, entre los que se incluyen la automatización de los centros de llamadas, las respuestas interactivas de los dispositivos del Internet de las cosas o la transformación de texto en audio para que otros usuarios lo escuchen.

Es compatible con muchos casos prácticos

Características de Cloud Text‑to‑Speech

Sistema multilingüe
La API ofrece más de 100 voces para más de 20 idiomas y variedades diferentes, y se seguirán añadiendo más con el paso del tiempo.
Voces de WaveNet
Acceso multilingüe exclusivo a las voces de la red WaveNet de DeepMind, que destacan por su gran naturalidad.
Compatibilidad con textos y lenguaje SSML
Personaliza la forma de hablar con etiquetas SSML que te permiten añadir pausas y números, y determinar el formato de las fechas y las horas, entre otras instrucciones de pronunciación.
Ajuste de la velocidad de elocución
Personaliza la velocidad de elocución para que sea, por ejemplo, 4 veces más rápida o más lenta que la velocidad normal.
Ajuste del tono
Personaliza el tono de la voz seleccionada, hasta 20 semitonos por encima o por debajo de la opción predeterminada.
Control de ganancia de volumen
Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta ‑96 dB.
Flexibilidad del formato de audio
Elige entre varios formatos de audio, como mp3, LINEAR16 y Ogg Opus.
Perfiles de audio
Optimiza el sonido para el tipo de dispositivo que utilices para reproducir la voz (por ejemplo, auriculares o líneas telefónicas).

Precios de Cloud Text‑to‑Speech

Síntesis de voz de alta fidelidad

Cloud Text‑to‑Speech se tarifica por cada millón de caracteres de texto procesado a partir del primer millón de caracteres, que es gratuito. Para obtener más información, consulta nuestra guía de precios.

Función Nivel gratuito mensual Uso de pago
Voces estándar (no de WaveNet) Hasta 4 millones de caracteres 4,00 USD por millón de caracteres
Voces de WaveNet Hasta 1 millón de caracteres 16,00 USD por millón de caracteres
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.
Uno de los productos o funciones mencionados en esta página está en versión beta. Obtén más información sobre las fases de lanzamiento de nuestros productos.
¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Cloud Text-to-Speech API
Si necesitas ayuda, visita nuestra página de asistencia.