Asiste a Next '23 del 29 al 31 de agosto para descubrir nuestros últimos avances en IA y más. Inscríbete
Ir a
Text‑to‑Speech

IA de Text‐to‐Speech

Convierte texto en voz que suena natural con una API basada en las mejores tecnologías de IA de Google.

Los nuevos clientes reciben 300 USD en crédito gratis para utilizarlo en Text‐to‐Speech.

  • Mejora las interacciones con los clientes gracias a respuestas naturales e inteligentes

  • Capta el interés de los usuarios con una interfaz de voz en tus dispositivos y aplicaciones

  • Personaliza tus comunicaciones en función de las preferencias de voz e idioma del usuario

Ventajas

Voz de alta fidelidad

Despliega las vanguardistas tecnologías de Google para generar voces con una entonación natural. La API crea voces muy similares a las humanas, ya que se ha desarrollado gracias a los conocimientos sobre síntesis de voz de DeepMind.

Amplia selección de voces

Elige entre una gama de más de 380 voces para más de 50 idiomas y variaciones lingüísticas, incluidos árabe, español, hindi, mandarín y ruso, entre otros. Elige la voz que encaje mejor con tus usuarios y tu aplicación.

Una voz inconfundible

Crea una voz única que represente tu marca en todos los puntos de contacto con los clientes, en lugar de usar una voz común que también utilicen otras empresas.

Demo

Prueba Text-to-Speech

Escribe lo que quieras, selecciona un idioma y haz clic en la opción de conversión a voz para oír lo que has escrito.

Características principales

Características principales

Voces Neural2

Internacionaliza tu experiencia de voz con voces listas para usarse que se basan en las últimas investigaciones de Voz personalizada.

Voces de estudio (versión preliminar)

Sorprende a tus oyentes con contenido narrado por profesionales que se graba en un entorno con calidad de estudio. ¡No te olvides de ponerte los auriculares!

Voz personalizada

Entrena un modelo de voz personalizada usando tus propias grabaciones de audio para crear una voz única que suene más natural para tu empresa. Puedes definir y elegir el perfil de voz que mejor se ajuste a tu empresa y adaptarte rápidamente a los cambios necesarios sin tener que grabar más frases.

Ajuste de la voz

Personaliza el tono de la voz seleccionada, hasta 20 semitonos por encima o por debajo de la opción predeterminada. Modifica la velocidad de elocución para que sea, por ejemplo, 4 veces más rápida o más lenta que la velocidad normal.

Compatibilidad con textos y lenguaje SSML

Personaliza la forma de hablar con etiquetas SSML que te permiten añadir pausas y números, así como determinar el formato de las fechas y las horas, entre otras instrucciones de pronunciación.

Ver todas las características

Documentación

Documentación

Aspectos básicos de Google Cloud

Aspectos básicos de Text‑to‑Speech

Un repaso a los conceptos fundamentales para usar la API Text‑to‑Speech.
Guía de inicio rápido

Guía de inicio rápido: Usar la línea de comandos

Configura la autorización y el proyecto de Google Cloud y realiza una solicitud a Text‑to‑Speech para crear audio a partir de texto.
Aspectos básicos de Google Cloud

Voces e idiomas disponibles

Echa un vistazo a las guías y los recursos de este producto.
Aspectos básicos de Google Cloud

Información general sobre Voz personalizada (beta)

Descubre cómo puedes usar la función Voz personalizada para crear una voz única con un sonido más natural a partir de tus propias grabaciones de audio con calidad de estudio.
Tutorial

WaveNet y otras voces sintéticas

Descubre las voces sintéticas disponibles en Text‑to‑Speech, incluidas las premium de WaveNet.
Tutorial

Enunciar direcciones con SSML

En este tutorial, te enseñamos a usar lenguaje de marcas de síntesis de voz (SSML) para enunciar un archivo de texto de direcciones.

¿No encuentras lo que buscas?

Casos prácticos

Casos prácticos

Caso práctico
Bots de voz en centros de contacto

Mejora la experiencia de voz del servicio de atención al cliente con los bots de voz de Dialogflow, que generan voces de forma dinámica en vez de reproducir audios estáticos que se han grabado previamente. Interactúa con voces sintetizadas de alta calidad que dan a los clientes una sensación de familiaridad y personalización.

Arquitectura de referencia de los bots de voz en centros de contacto
Caso práctico
Generación de voz en dispositivos

Comunícate de forma natural con tus usuarios dotando a tus dispositivos de voces que emulan la voz humana, como un lector de texto. Desarrolla una interfaz de usuario de voz integral con Speech-to-Text y Natural Language, y mejora la experiencia de los usuarios con interacciones sencillas y agradables.

Arquitectura de referencia de generación de voz en dispositivos
Caso práctico
Guías electrónicas de programas (EPGs) accesibles

Es muy fácil activar la lectura en voz alta de las EPGs para proporcionar una mejor experiencia de usuario a los clientes y asegurarte de que tus servicios y aplicaciones cumplen los requisitos de accesibilidad. Prueba la demostración de las EPGs.

Implementa fácilmente la función de conversión de texto a voz en EPGs para proporcionar una mejor experiencia de usuario a los clientes y asegurarte de que tus servicios y aplicaciones cumplen los requisitos de accesibilidad. 

Arquitectura de referencia que muestra cómo puede crear la API Text-to-Speech EPGs accesibles