Cloud Text‑to‑Speechbeta

Conversión de texto en voz con la tecnología de aprendizaje automático

Pruébalo gratis

Síntesis de voz de alta fidelidad

La API Google Cloud Text‑to‑Speech permite que los desarrolladores sinteticen 30 voces muy naturales en varios idiomas y variantes. Gracias a los revolucionarios avances de DeepMind en WaveNet y a las potentes redes neuronales de Google, Cloud Text‑to‑Speech es capaz de ofrecer un audio de alta fidelidad. Con esta API fácil de usar, puedes crear interacciones naturales con los usuarios en un gran número de aplicaciones y dispositivos.

Síntesis de voz de alta fidelidad

¿A qué esperas para convertir tu texto en voz?

Escribe lo que quieras, selecciona un idioma y haz clic en la opción de conversión a voz para oír lo que has escrito.

Utiliza la tecnología de aprendizaje automático de Google

Aplica algoritmos avanzados de aprendizaje profundo y redes neuronales para sintetizar texto en una amplia gama de voces e idiomas. En Google, aplicamos nuestros conocimientos sobre la síntesis de voz para diseñar nuestras redes neuronales.

Aprendizaje automático de Google

Ofrece acceso exclusivo a las voces de la red WaveNet de DeepMind

Los revolucionarios avances de DeepMind en los modelos de aprendizaje automático han permitido generar voces y sonidos naturales que se asemejan a los de los seres humanos, reduciendo la diferencia con los sonidos humanos en más de un 50 %. La API Cloud Text‑to‑Speech ofrece acceso exclusivo a un gran número de voces de WaveNet, y se seguirán añadiendo más con el paso del tiempo.

Voces de la red WaveNet de DeepMind

Elige entre más de 30 voces distintas

La API Google Cloud Text‑to‑Speech ofrece más de 30 voces en 14 idiomas y variantes diferentes, lo que permite a los desarrolladores elegir la voz que mejor se adapta a sus aplicaciones.

Elige entre más de 30 voces distintas

Se integra fácilmente con las aplicaciones y los dispositivos actuales

Cloud Text‑to‑Speech es compatible con cualquier aplicación o dispositivo que pueda enviar solicitudes REST o gRPC, como teléfonos, ordenadores, tablets y dispositivos de Internet de las Cosas (por ejemplo, coches, televisores o altavoces).

Se integra fácilmente con las aplicaciones y los dispositivos actuales

Compatibilidad con muchos casos prácticos comunes

La API Google Cloud Text‑to‑Speech es una solución flexible y fácil de usar que permite crear experiencias naturales en una amplia variedad de casos prácticos, entre los que se incluyen la automatización de los centros de llamadas, las respuestas interactivas de los dispositivos de Internet de las Cosas o la transformación de texto en audio para que otros usuarios lo escuchen.

Es compatible con muchos casos prácticos

Funciones de Cloud Text‑to‑Speech

Sistema multilingüe
La API ofrece más de 30 voces en 14 idiomas y variantes diferentes, y se seguirán añadiendo más con el paso del tiempo.
Voces de WaveNet
Acceso multilingüe exclusivo a las voces de la red WaveNet de DeepMind, que destacan por su gran naturalidad.
Compatibilidad con textos y lenguaje SSML
Personaliza la forma de hablar con etiquetas SSML que te permiten añadir pausas y números y determinar el formato de las fechas y las horas, entre otras instrucciones de pronunciación.
Ajuste de la velocidad de elocución
Personaliza la velocidad de elocución para que sea, por ejemplo, 4 veces más rápida o más lenta que la velocidad normal.
Ajuste del tono
Personaliza el tono de la voz seleccionada, hasta 20 semitonos por encima o por debajo de la opción predeterminada.
Control de ganancia de volumen
Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta ‑96 dB.
Flexibilidad del formato de audio
Elige entre varios formatos de audio: mp3, LINEAR16, Ogg Opus, etc.
Perfiles de audiobeta
Optimiza el sonido para el tipo de dispositivo que utilices para reproducir la voz (auriculares, líneas telefónicas, etc.).

Precios de Cloud Text‑to‑Speech

Síntesis de voz de alta fidelidad

Cloud Text‑to‑Speech se tarifica por un millón de caracteres de texto procesado a partir del primer millón de caracteres, que es gratuito. Para obtener más información, consulta nuestra guía de precios.

Función Nivel gratuito mensual Uso de pago
Voces estándar (no de WaveNet) Hasta 4 millones de caracteres 4,00 $ por millón de caracteres
Voces de WaveNet Hasta 1 millón de caracteres 16,00 $ por millón de caracteres
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.
Uno de los productos o funciones mencionados en esta página está en versión beta. Obtén más información sobre las fases de lanzamiento de nuestros productos.

Enviar comentarios sobre...

Cloud Text-to-Speech API