Text‑to‑Speech
Convierte texto en voz que suena natural con una API basada en las tecnologías de IA de Google
Probar gratis-
Mejora las interacciones con los clientes gracias a respuestas naturales e inteligentes.
-
Capta el interés de los usuarios con una interfaz de voz en tus dispositivos y aplicaciones.
-
Personaliza tus comunicaciones en función de las preferencias de voz e idioma del usuario.
Ventajas
Voz de alta fidelidad
Despliega las vanguardistas tecnologías de Google para generar voces con una entonación natural. La API crea voces muy similares a las humanas, ya que se ha desarrollado gracias a los conocimientos sobre síntesis de voz de DeepMind.
Amplia selección de voces
Elige entre más de 220 voces para más de 40 idiomas y variedades lingüísticas. Elige la voz que encaje mejor con tus usuarios y tu aplicación.
Una voz inconfundible
Crea una voz única que represente tu marca en todos los puntos de contacto con los clientes, en lugar de usar una voz común que también utilicen otras organizaciones.
Demostración
Prueba Text‑to‑Speech
Escribe lo que quieras, selecciona un idioma y haz clic en la opción de conversión a voz para oír lo que has escrito.
Características principales
Características principales
Voz personalizada (beta)
Entrena un modelo de síntesis de voz personalizado usando tus propias grabaciones de audio para crear una voz única que suene más natural para tu organización. Puedes definir y elegir el perfil de voz que mejor se adapte a tu empresa y ajustarte rápidamente a los cambios necesarios sin tener que grabar más frases. Más información
Voces de WaveNet
Aprovecha las más de 90 voces de WaveNet, desarrolladas gracias a las innovadoras investigaciones de DeepMind, para generar voces que podrían parecer humanas.
Ajuste de la voz
Personaliza el tono de la voz seleccionada, hasta 20 semitonos por encima o por debajo de la opción predeterminada. Modifica la velocidad de elocución para que sea, por ejemplo, 4 veces más rápida o más lenta que la velocidad normal.
Compatibilidad con textos y lenguaje SSML
Personaliza la forma de hablar con etiquetas SSML que te permiten añadir pausas y números, así como determinar el formato de las fechas y las horas, entre otras instrucciones de pronunciación.
Novedades
Novedades
Suscríbete para recibir newsletters de Google Cloud con novedades sobre productos, información de eventos, ofertas especiales y mucho más.
Documentación
Documentación
Aspectos básicos de Text‑to‑Speech
Un repaso a los conceptos fundamentales para usar la API Text‑to‑Speech.
Guía de inicio rápido: Usar la línea de comandos
Configura la autorización y el proyecto de Google Cloud y realiza una solicitud a Text‑to‑Speech para crear audio a partir de texto.
Voces e idiomas disponibles
Consulta qué idiomas admite Text‑to‑Speech y escucha ejemplos de las voces disponibles para cada uno.
Información general sobre Voz personalizada (beta)
Descubre cómo puedes usar la función Voz personalizada para crear una voz única con un sonido más natural a partir de tus propias grabaciones de audio con calidad de estudio.
WaveNet y otras voces sintéticas
Descubre las voces sintéticas disponibles en Text‑to‑Speech, incluidas las premium de WaveNet.
Enunciar direcciones con SSML
En este tutorial, te enseñamos a usar lenguaje de marcas de síntesis de voz (SSML) para enunciar un archivo de texto de direcciones.
Usos
Usos
Mejora la experiencia de voz del servicio de atención al cliente al generar voces de forma dinámica en vez de reproducir audios estáticos que se han grabado previamente. Interactúa con voces sintetizadas de alta calidad que dan a los clientes una sensación de familiaridad y personalización.
Comunícate de forma natural con tus usuarios al dotar a tus dispositivos de voces que recuerdan a las humanas. Desarrolla una interfaz de usuario de voz integral con Speech-to-Text y mejora la experiencia de los usuarios con interacciones fáciles y agradables.
Implementa fácilmente la función de síntesis de voz en EPGs para proporcionar una mejor experiencia de usuario a los clientes y asegurarte de que tus servicios y aplicaciones cumplen los requisitos de accesibilidad. Probar la demostración
Todas las características
Todas las características
Voz personalizada (beta) | Entrena un modelo de síntesis de voz personalizado usando tus propias grabaciones de audio para crear una voz única que suene más natural para tu organización. Puedes definir y elegir el perfil de voz que mejor se adapte a tu organización y adaptarte rápidamente a los cambios necesarios sin tener que grabar más frases. Más información |
Selección de voz e idioma | Elige entre una gama de más de 220 voces para más 40 idiomas y variaciones lingüísticas, que seguirá ampliándose en el futuro. |
Voces de WaveNet | Aprovecha las más de 90 voces de WaveNet, desarrolladas gracias a las innovadoras investigaciones de DeepMind, para generar voces que podrían parecer humanas. |
Compatibilidad con textos y lenguaje SSML | Personaliza la forma de hablar con etiquetas SSML que te permiten añadir pausas y números, así como determinar el formato de las fechas y las horas, entre otras instrucciones de pronunciación. |
Ajuste del tono | Personaliza el tono de la voz seleccionada, hasta 20 semitonos por encima o por debajo de la opción predeterminada. |
Ajuste de la velocidad de elocución | Modifica la velocidad de elocución para que sea, por ejemplo, 4 veces más rápida o más lenta que la velocidad normal. |
Control de ganancia de volumen | Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta ‑96 dB. |
API REST y gRPC integradas | Es muy fácil integrar cualquier aplicación o dispositivo que pueda enviar solicitudes REST o gRPC, como teléfonos, ordenadores, tablets y dispositivos del Internet de las cosas (por ejemplo, coches, televisores o altavoces). |
Flexibilidad del formato de audio | Elige entre varios formatos de audio, como mp3, LINEAR16 y Ogg Opus. |
Perfiles de audio | Optimiza el sonido según el tipo de dispositivo que utilices para reproducir la voz (auriculares, líneas telefónicas, etc.). |
Precios
Precios
Text‑to‑Speech de Cloud se tarifica por cada millón de caracteres de texto procesado a partir del máximo correspondiente al nivel gratuito.
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Google Cloud.