Text-to-Speech de Cloud

Conversión de texto escrito en voz con la tecnología de aprendizaje automático

Probar gratis Ver documentación

Síntesis de voz de alta fidelidad

La API Text‑to‑Speech de Google Cloud convierte texto escrito en un discurso oral y natural, con más de 180 voces y para más de 30 idiomas y variedades lingüísticas. Gracias a los revolucionarios avances de WaveNet en materia de síntesis de voz y las potentes redes neuronales de Google, es posible ofrecer un audio de alta fidelidad. Además, esta API es muy fácil de usar y te permite propiciar interacciones naturales con los usuarios, con lo que podrás transformar por completo tu servicio de atención al cliente, la interacción con los dispositivos y otras aplicaciones.

Síntesis de voz de alta fidelidad

¿A qué esperas para convertir texto escrito en voz?

Escribe lo que quieras, selecciona un idioma y haz clic en la opción de conversión a voz para oír lo que has escrito.

Utiliza la tecnología de aprendizaje automático de Google

Aplica algoritmos avanzados de aprendizaje profundo y redes neuronales para sintetizar texto en una amplia gama de voces e idiomas. En Google, aplicamos nuestros conocimientos sobre la síntesis de voz para diseñar nuestras redes neuronales.

Aprendizaje automático de Google

Elige entre más de 180 voces distintas

La API Text‑to‑Speech de Google Cloud ofrece más de 180 voces para más de 30 idiomas y variedades lingüísticas diferentes, lo que permite a los desarrolladores elegir la opción que mejor se adapte a sus aplicaciones.

Elige entre más de 180 voces distintas

Acceso exclusivo a la tecnología WaveNet

Los revolucionarios avances de DeepMind en los modelos de aprendizaje automático han permitido generar voces y sonidos más naturales que reducen en un 70 % las diferencias respecto a la expresión humana. La API Text‑to‑Speech de Cloud ofrece acceso exclusivo a más de 90 voces de WaveNet, y se seguirán añadiendo más con el paso del tiempo.

Voces de la red WaveNet de DeepMind

Integración sencilla con aplicaciones y dispositivos actuales

Text‑to‑Speech de Cloud es compatible con cualquier aplicación o dispositivo que pueda enviar solicitudes REST o gRPC, como teléfonos, ordenadores, tablets y dispositivos del Internet de las cosas (por ejemplo, coches, televisores o altavoces).

Integración sencilla con aplicaciones y dispositivos actuales

Compatibilidad con muchos casos prácticos comunes

La API Text‑to‑Speech de Google Cloud es una solución flexible y fácil de usar que permite crear experiencias naturales en una amplia variedad de casos prácticos. Por ejemplo, la automatización de los centros de llamadas, las respuestas interactivas de los dispositivos del Internet de las cosas o la transformación de texto en audio para que otros usuarios lo escuchen.

Es compatible con muchos casos prácticos
Símbolo de Text-to-Speech

Características de Text‑to‑Speech de Cloud

Sistema multilingüe
La API ofrece más de 180 voces para más de 30 idiomas y variedades diferentes, y se seguirán añadiendo más con el paso del tiempo.
Voces de WaveNet
Acceso multilingüe exclusivo a las voces de la red WaveNet de DeepMind, que destacan por su gran naturalidad.
Compatibilidad con textos y lenguaje SSML
Personaliza la forma de hablar con etiquetas SSML que te permiten añadir pausas y números, y determinar el formato de las fechas y las horas, entre otras instrucciones de pronunciación.
Ajuste de la velocidad de elocución
Personaliza la velocidad de elocución para que sea, por ejemplo, 4 veces más rápida o más lenta que la velocidad normal.
Ajuste del tono
Personaliza el tono de la voz seleccionada, hasta 20 semitonos por encima o por debajo de la opción predeterminada.
Control de ganancia de volumen
Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta ‑96 dB.
Flexibilidad del formato de audio
Elige entre varios formatos de audio, como mp3, LINEAR16 y Ogg Opus.
Perfiles de audio
Optimiza el sonido para el tipo de dispositivo que utilices para reproducir la voz (auriculares, líneas telefónicas, etc.).

Precios de Text‑to‑Speech de Cloud

Síntesis de voz de alta fidelidad

Text‑to‑Speech de Cloud se tarifica por cada millón de caracteres de texto procesado a partir del primer millón de caracteres, que es gratuito. Para obtener más información, consulta nuestra guía de precios.

Función Nivel gratuito mensual Uso de pago
Voces estándar (que no son de WaveNet) Hasta 4 millones de caracteres 4,00 USD por millón de caracteres
Voces de WaveNet Hasta 1 millón de caracteres 16,00 USD por millón de caracteres
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.
Logotipo de Text-To-Speech
Uno de los productos o funciones mencionados en esta página está en versión beta. Más información sobre nuestras fases de lanzamiento
Los productos de inteligencia artificial de Cloud cumplen las políticas de acuerdo de nivel de servicio de Google Cloud Platform. Pueden ofrecer garantías de latencia o disponibilidad diferentes respecto a otros servicios de Google Cloud.

Enviar comentarios sobre...

Cloud Text-to-Speech API
Si necesitas ayuda, visita nuestra página de asistencia.