Ir a

Text‑to‑Speech

Convierte texto en voz natural mediante una API impulsada por la tecnología de IA de Google.
  • action/check_circle_24px Creado con Sketch.

    Mejora las interacciones con los clientes gracias a respuestas inteligentes y naturales.

  • action/check_circle_24px Creado con Sketch.

    Interactúa con los usuarios mediante una interfaz de usuario de voz en tus dispositivos y aplicaciones.

  • action/check_circle_24px Creado con Sketch.

    Personaliza las comunicaciones en función de las preferencias de idioma y voz de los usuarios.

Beneficios

Voz de alta fidelidad

Implementa las tecnologías innovadoras de Google para generar voces con entonación similar a las de los seres humanos. La API se desarrolló según la experiencia de DeepMind en la síntesis de voz y ofrece voces de calidad casi idéntica a las humanas.

La selección de voces más amplia disponible

Elige entre un conjunto de más de 220 voces disponibles en más de 40 idiomas y variantes, incluidos árabe, chino mandarín, español, hindi, ruso y muchos más. Elige la voz que se adapte mejor a tus usuarios y aplicaciones.

Voz única

Crea una voz única que represente tu marca en todos los puntos de contacto con tus clientes, en lugar de usar una voz común que también utilizan otras organizaciones.

Demostración

Implementa Text‑to‑Speech

Escribe lo que quieras, selecciona un idioma y haz clic en “Speak it” para escucharlo.

Características clave

Características clave

Voz personalizada (beta)

Entrena un modelo de voz personalizada con tus propias grabaciones de audio para crear una voz única y con sonido más natural para tu organización. Puedes definir y elegir el perfil de voz que se adapte a tu organización y ajustarlo con rapidez según los cambios que se requiera hacer, sin necesidad de grabar frases nuevas.

Voces generadas por WaveNet

Aprovecha las más de 90 voces de WaveNet creadas según la investigación innovadora de DeepMind para generar sonidos que reducen de manera significativa las diferencias con los patrones humanos.

Ajuste de voz

Personaliza el tono de la voz seleccionada hasta 20 semitonos más o menos que la voz predeterminada. Ajusta la velocidad del habla para que sea hasta 4 veces más rápida o lenta que la velocidad normal.

Compatibilidad con formatos de texto y SSML

Personaliza tu voz con etiquetas de SSML que te permiten agregar formatos de fecha y hora, pausas y números, además de otras instrucciones de pronunciación.

Ver todas las características

Novedades

Novedades

Regístrate para recibir los boletines informativos de Google Cloud con información sobre actualizaciones de productos, eventos, ofertas especiales y mucho más.

Documentación

Documentación

Conceptos básicos de Google Cloud
Conceptos básicos de Text‑to‑Speech

Una guía con los conceptos fundamentales para usar la API de Text‑to‑Speech.

Guía de inicio rápido
Guía de inicio rápido: Cómo usar la línea de comandos

Configura tu proyecto y autorización de Google Cloud y envía una solicitud a Text‑to‑Speech para crear audio a partir de texto.

Conceptos básicos de Google Cloud
Idiomas y voces compatibles

Explora guías y recursos sobre este producto.

Conceptos básicos de Google Cloud
Descripción general de la función de voz personalizada (beta)

Descubre cómo puedes crear una voz única que suene más natural con tus propias grabaciones de audio de calidad de estudio mediante la función de voz personalizada.

Instructivo
WaveNet y otras voces sintéticas

Obtén información sobre las distintas voces sintéticas disponibles para Text‑to‑Speech, incluidas las voces premium generadas por WaveNet.

Instructivo
Reproduce direcciones en voz alta con SSML

En este instructivo se muestra cómo usar el lenguaje de marcación de síntesis de voz (SSML) para que se reproduzca un archivo de texto de direcciones.

Casos de uso

Casos de uso

Caso de uso
Bots de voz en centros de contacto

Ofrece una mejor experiencia de voz para la atención al cliente con bots de voz de Dialogflow que generan voces de manera dinámica, en vez de reproducir un audio estático previamente grabado. Interactúa con voces sintetizadas de alta calidad que ofrecen una sensación de familiaridad y personalización a quienes llaman.

Arquitectura de referencia de bots de voz en centros de contacto
Caso de uso
Generación de voz en dispositivos

Ofrece una comunicación natural a tus usuarios. Para ello, potencia los dispositivos, como los lectores de texto, de modo que usen voces similares a las humanas. Diseña una interfaz de usuario de voz de extremo a extremo junto con Speech‑to‑Text y Natural Language para mejorar la experiencia del usuario mediante interacciones sencillas y atractivas.

Arquitectura de referencia de generación de voz en dispositivos
Caso de uso
EPG (guías electrónicas de programas) accesibles

Haz que las EPG lean fácilmente texto en voz alta para proporcionar a los clientes una mejor experiencia del usuario y cumplir con los requisitos de accesibilidad de tus servicios y aplicaciones. Prueba la demostración de EPG.

Implementa fácilmente la función de texto a voz en las EPG para proporcionar a los clientes una mejor experiencia del usuario y cumplir con los requisitos de accesibilidad de tus servicios y aplicaciones. 

Arquitectura de referencia en la que se muestra cómo las API de TTS pueden crear EPG accesibles

Todas las características

Todas las características

Voz personalizada (beta) Entrena un modelo de síntesis de voz personalizado con tus propias grabaciones de audio a fin de crear una voz única para tu organización que suene más natural. Puedes definir y elegir el perfil de voz que se adapte a tu organización y ajustarlo con rapidez según los cambios que se requiera hacer, sin necesidad de grabar frases nuevas. Obtén más información.
Selección de idioma y voz Elige entre una amplia selección de más de 220 voces disponibles en más de 40 idiomas y variantes. Pronto agregaremos más.
Voces generadas por WaveNet Aprovecha las más de 90 voces de WaveNet creadas según la investigación innovadora de DeepMind para generar sonidos que reducen de manera significativa las diferencias con los patrones humanos.
Compatibilidad con formatos de texto y SSML Personaliza tu voz con etiquetas de SSML que te permiten agregar formatos de fecha y hora, pausas y números, además de otras instrucciones de pronunciación.
Ajuste del tono Personaliza el tono de la voz seleccionada hasta 20 semitonos más o menos que la voz predeterminada.
Ajuste de la velocidad del habla Personaliza tu velocidad de habla para que sea hasta 4 veces más rápida o lenta que la velocidad normal.
Control del aumento de volumen Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta -96 dB.
API de REST y gRPC integradas Realiza integraciones sencillas con cualquier aplicación o dispositivo que pueda enviar solicitudes de REST o gRPC, incluidos teléfonos, computadoras de escritorio, tablets y dispositivos de IoT (p. ej., autos, TVs o bocinas).
Flexibilidad de formatos de audio Convierte texto en MP3, Linear16, OGG Opus y muchos otros formatos de audio.
Perfiles de audio Aplica optimizaciones en función del tipo de bocina desde la que se reproducirá la voz, como auriculares o líneas telefónicas.

Precios

Precios

Text‑to‑Speech se cobra según la cantidad de caracteres que se envíen al servicio para sintetizarse como audio cada mes. El primer millón de caracteres de cada mes para voces de WaveNet es gratuito. En el caso de las voces estándar (que no son de WaveNet), los primeros 4 millones de caracteres de cada mes son gratuitos. Después de que se supera el nivel gratuito, el precio de Text‑to‑Speech se cobra por cada 1 millón de caracteres de texto procesado.

Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Google Cloud.