Prueba Gemini 3, nuestro mejor modelo de razonamiento, programación y comprensión multimodal en Gemini Enterprise Agent Platform

Text‑to‑Speech

IA de Text‐to‐Speech

Convierte texto en una voz que suena natural con una API basada en las mejores tecnologías de IA de Google.

Los nuevos clientes reciben hasta 300 USD en crédito sin coste para probar Text-to-Speech y otros productos de Google Cloud.

Ofrece respuestas inteligentes y naturales a los usuarios con voces de IA naturales
Crea interfaces de voz para aplicaciones con conversión de texto a voz integrada
Personaliza tus comunicaciones y el audio en función de las preferencias de voz e idioma del usuario

Aprende a crear una voz sintética con la API Text-to-Speech

Iniciar experimento de autoaprendizaje

Ventajas

Voz de alta fidelidad

Despliega las vanguardistas tecnologías de Google para generar voces con una entonación natural. La API crea voces muy similares a las humanas, ya que se ha desarrollado gracias a los conocimientos sobre síntesis de voz de DeepMind.

La más amplia selección de voces

Elige entre una gama de más de 380 voces para más de 75 idiomas y variaciones lingüísticas, incluidos árabe, español, hindi, mandarín y ruso, entre otros. Elige la voz que encaje mejor con tus usuarios y tu aplicación.

Una voz inconfundible

Crea una voz única que represente tu marca en todos los puntos de contacto con los clientes, en lugar de usar una voz común que también utilicen otras empresas.

Demo

Prueba Text-to-Speech

Escribe lo que quieras, selecciona un idioma y haz clic en la opción de conversión a voz para oír lo que has escrito.

Características principales

Gemini-TTS

Sintetiza la voz de uno o varios hablantes a partir de fragmentos cortos o narraciones completas, manteniendo la contextualidad. Dicta con precisión el estilo, el acento, el ritmo, el tono y la expresión emocional, todo ello mediante sencillas peticiones en lenguaje natural en más de 75 idiomas. Ve a Media Studio o consulta nuestra documentación para obtener más información.

Chirp 3: voces en HD

Crea agentes atractivos que usen las voces de conversación espontáneas más recientes basadas en AudioLM. Estas voces ofrecen audio de alta calidad, streaming de baja latencia y una voz que suena natural, con vacilaciones propias de las personas, distintos grados de emoción y entonaciones precisas. Ve a Media Studio o consulta nuestra documentación para obtener más información.

Chirp 3: voz personalizada al instante

Crea modelos de voz personalizados con tan solo 10 segundos de audio. Perfectos para videojuegos, audiolibros y pódcasts, entre otros. Disponible en más de 30 idiomas. Ve a Media Studio o consulta nuestra documentación para obtener más información.

Compatibilidad con peticiones, texto y lenguaje SSML

Controla el formato de números y horas, la forma, la pronunciación y la emoción mediante scripting de texto sin formato, etiquetas SSML o incluso peticiones de lenguaje natural eficaces, según la compatibilidad del modelo. Ve a Media Studio o consulta nuestra documentación para obtener más información.

Novedades

Suscríbete para recibir newsletters de Google Cloud con novedades sobre los productos, información de eventos y ofertas especiales, entre otras cosas.

Imagen vectorial de personas diciendo "Hola" en diferentes idiomas

Blog post

La API Cloud Text-to-Speech de Google ahora admite voces personalizadasLeer el blog

Persona sosteniendo un smartphone, en el que se muestra un audiolibro creado con la conversión de texto a voz

Video

Cómo convertir PDFs en audiolibros con aprendizaje automáticoVer vídeo

Dibujo en el que se muestra una conversación basada en IA con Contact Center AI

Blog post

La IA conversacional mejora la experiencia de clienteLeer el blog

Mujer hablándole a un teléfono móvil que sostiene delante de ella

Video

Solucionar el problema de la accesibilidad en las llamadas telefónicas con Speech-to-Text y Text-to-SpeechVer vídeo

Título en el que se lee "Idiomas y voces de Cloud Text-to-Speech" en inglés sobre varias filas con unas 25 banderas del mundo

Blog post

Nuevas voces e idiomas para Text-to-SpeechLeer el blog

Documentación

Quickstart

Gemini-TTS

Aprende a controlar con precisión la síntesis de voz con Gemini-TTS usando peticiones en lenguaje natural para dictar el estilo, el tono, el ritmo y la expresión emocional.

Quickstart

Descripción general de Chirp 3: voces en HD

Aprende a sintetizar un habla realista y emotiva con Chirp 3: voces en HD y a ajustar el audio con controles avanzados y prácticas recomendadas de scripting.

Quickstart

Descripción general de Chirp 3: voz personalizada al instante

Crea modelos de voz personalizados y únicos para tu empresa con solo 10 segundos de grabaciones de audio. Permite generar rápidamente voces personales.

Tutorial

Enunciación de direcciones con SSML

Aprende a usar el lenguaje de marcado de síntesis de voz (SSML) para enunciar un archivo de texto de direcciones.

Google Cloud Basics

Aspectos básicos de Text‑to‑Speech

Una guía de los conceptos fundamentales para usar la API Text‑to‑Speech.

Google Cloud Basics

Voces e idiomas admitidos

Echa un vistazo a las guías y los recursos de este producto.

¿No encuentras lo que buscas?

Notas de la versión

Consulta más información sobre las últimas versiones de Text-to-Speech.

Casos prácticos

Caso práctico

Bots de voz en centros de contacto

Mejora la experiencia de voz del servicio de atención al cliente con los bots de voz de Customer Experience Agent Studio, que generan voces de forma dinámica en vez de reproducir audios estáticos pregrabados. Interactúa con voces sintetizadas de alta calidad que dan a los clientes una sensación de familiaridad y personalización.

Flujo de la API Cloud Speech-to-Text de Google

Caso práctico

Generación de voz en dispositivos

Comunícate de forma natural con tus usuarios dotando a tus dispositivos de voces que emulan la voz humana, como un lector de texto. Desarrolla una interfaz de usuario de voz integral con Speech-to-Text y Natural Language, y mejora la experiencia de los usuarios con interacciones sencillas y agradables.

Voz a texto con dispositivos y flujo de Internet de las cosas

Caso práctico

Guías electrónicas de programas (EPGs) accesibles

Es muy fácil activar la lectura en voz alta de las EPGs para proporcionar una mejor experiencia de usuario a los clientes y asegurarte de que tus servicios y aplicaciones cumplen los requisitos de accesibilidad. Prueba la demostración de las EPGs.

Implementa fácilmente la función de conversión de texto a voz en EPGs para proporcionar una mejor experiencia de usuario a los clientes y asegurarte de que tus servicios y aplicaciones cumplen los requisitos de accesibilidad.

Todas las características

Todas las funciones

Síntesis de audio en streaming	Potencia tus agentes de IA con una latencia ultrabaja en el habla para que las conversaciones sean fluidas y en tiempo real con la síntesis de audio en streaming.
Síntesis de audios largos	Sintetiza de forma asíncrona hasta un millón de bytes de entrada con la función para sintetizar audios largos.
Selección de voz e idioma	Elige entre una amplia gama de más de 380 voces para más de 75 idiomas y variaciones lingüísticas, que seguirá ampliándose en el futuro.
Compatibilidad con textos y lenguaje SSML	Personaliza la forma de hablar con etiquetas SSML que te permiten añadir pausas y números, así como determinar el formato de las fechas y las horas, entre otras instrucciones de pronunciación.
Ajuste del tono	Personaliza el tono de la voz seleccionada, hasta 20 semitonos por encima o por debajo de la opción predeterminada.
Ajuste de la velocidad de elocución	Modifica la velocidad de elocución para que sea, por ejemplo, 4 veces más rápida o más lenta que la velocidad normal.
Control de ganancia de volumen	Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta ‑96 dB.
APIs REST y gRPC integradas	Es muy fácil integrar cualquier aplicación o dispositivo que pueda enviar solicitudes REST o gRPC, como teléfonos, ordenadores, tablets y dispositivos del Internet de las cosas (por ejemplo, coches, televisores o altavoces).
Flexibilidad del formato de audio	Convierte texto a formatos de audio como MP3, LINEAR16 y Ogg Opus, entre otros.
Perfiles de audio	Optimiza el sonido para el tipo de dispositivo que utilices para reproducir la voz (auriculares, líneas telefónicas, etc.).

Precios

El precio de Text-to-Speech se determina en función de la cantidad de caracteres que se envían cada mes al servicio para que los convierta en audio. El primer millón de caracteres de cada mes para voces de WaveNet no tiene coste. En el caso de las voces estándar (es decir, que no son de WaveNet), los primeros 4 millones de caracteres de cada mes no tienen coste. Text-to-Speech se tarifica por cada millón de caracteres de texto procesado a partir del máximo correspondiente al nivel sin coste económico.

Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en la página de SKUs de Google Cloud.

Ve un paso más allá

Los nuevos clientes reciben 300 USD en crédito sin coste para probar Text‐to‐Speech y otros productos de Google Cloud.

¿Necesitas ayuda para empezar?
Contactar con Ventas
Colabora con un partner de confianza
Buscar un partner
Sigue explorando nuestras soluciones
Ver todos los productos

IA de Text‐to‐Speech

Voz de alta fidelidad

La más amplia selección de voces

Una voz inconfundible

Prueba Text-to-Speech

Características principales

Gemini-TTS

Chirp 3: voces en HD

Chirp 3: voz personalizada al instante

Compatibilidad con peticiones, texto y lenguaje SSML

Novedades

Documentación

Gemini-TTS

Descripción general de Chirp 3: voces en HD

Descripción general de Chirp 3: voz personalizada al instante

Enunciación de direcciones con SSML

Aspectos básicos de Text‑to‑Speech

Voces e idiomas admitidos

¿No encuentras lo que buscas?

Más documentación

Casos prácticos

Bots de voz en centros de contacto

Generación de voz en dispositivos

Guías electrónicas de programas (EPGs) accesibles

Todas las funciones

Precios

Ve un paso más allá

¿Necesitas ayuda para empezar?

Colabora con un partner de confianza

Sigue explorando nuestras soluciones