Prueba Gemini 3, nuestro mejor modelo para el razonamiento, la programación y la comprensión multimodal en Vertex AI

Text-to-Speech

IA de Text‐to‐Speech

Convierte texto en voz natural utilizando una API impulsada por la mejor tecnología de IA de Google.

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para probar Text‐to‐Speech y otros productos de Google Cloud.

Ofrece respuestas inteligentes y realistas a los usuarios con voces de IA naturales
Crea interfaces de voz para apps con texto a voz integrado
Personaliza tu comunicación y audio en función de las preferencias de idioma y voz de los usuarios

Aprende a crear voces sintéticas con la API de Text-to-Speech

Comenzar lab de autoaprendizaje

Beneficios

Voz de alta fidelidad

Implementa las tecnologías innovadoras de Google para generar voces con entonación similar a la de los seres humanos. La API se desarrolló según la experiencia de DeepMind en la síntesis de voz y ofrece voces de calidad casi idéntica a la humana.

La selección de voces más amplia disponible

Elige entre un conjunto de más de 380 voces disponibles en más de 75 idiomas y variantes, incluidos árabe, chino mandarín, español, hindi, ruso y muchos más. Elige la voz que se adapte mejor a tu usuario y tu aplicación.

Voz única

Crea una voz única que represente tu marca en todos los puntos de contacto de tus clientes, en lugar de usar una voz común que también utilizan otras organizaciones.

Demostración

Implementa Text-to-Speech

Escribe lo que quieras, selecciona un idioma y haz clic en “Speak It” (Dilo en voz alta) para escucharlo.

Características clave

Funciones clave

Gemini-TTS

Sintetiza la voz de uno o varios oradores a partir de fragmentos cortos hasta narrativas completas, todo sin perder el contexto. Determina con precisión el estilo, el acento, el ritmo, el tono y la expresión emocional, lo cual puedes controlar a través de sencillas instrucciones en lenguaje natural en más de 75 idiomas. Ve a Media Studio o consulta nuestra documentación para conocer más detalles.

Chirp 3: Voces en HD

Crea agentes atractivos con las voces de conversación espontáneas más recientes basadas en AudioLM. Ofrecen audio de alta calidad, transmisión de baja latencia y sonido natural que incorpora faltas de fluidez humanas, rango emocional y entonación precisa. Ve a Media Studio o consulta nuestra documentación para conocer más detalles.

Chirp 3: Voz personalizada instantánea

Crea modelos de voz personalizados con solo 10 segundos de entrada de audio. Perfecto para videojuegos, audiolibros, podcasts y mucho más. Disponible en más de 30 idiomas. Ve a Media Studio o consulta nuestra documentación para conocer más detalles.

Compatibilidad con instrucciones, texto y SSML

Controla el formato de números y tiempo, la entrega, la pronunciación y la emoción con secuencias de comandos de texto simple, etiquetas SSML o incluso instrucciones en lenguaje natural potentes, según la compatibilidad del modelo. Ve a Media Studio o consulta nuestra documentación para conocer más detalles.

Novedades

Regístrate para recibir los boletines informativos de Google Cloud con información sobre actualizaciones de productos, eventos, ofertas especiales y mucho más.

Arte vectorial de personas que dicen “Hola” en diferentes idiomas

Blog post

Google Cloud Text-to-Speech API now supports custom voicesLeer el blog

Una persona sostiene un smartphone, en el que se muestra un audiolibro creado mediante Text‑to‑Speech

Video

How to convert PDFs to audiobooks with machine learningMirar el video

dibujo en el que se muestra una conversación potenciada por IA con Contact Center AI

Blog post

Conversational AI drives better customer experiencesLeer el blog

Una mujer sostiene un teléfono celular frente a su rostro y le habla

Video

Llamadas telefónicas accesibles para todos gracias a Speech-to-Text y Text-to-SpeechMirar el video

Leyenda “Cloud Text‑to‑Speech Languages and Voices” que aparece sobre unas 25 banderas de todo el mundo

Blog post

Nuevos idiomas y voces para Text-to-SpeechLeer el blog

Documentación

Quickstart

Gemini-TTS

Aprende a controlar con precisión la síntesis de voz con Gemini-TTS, usando instrucciones en lenguaje natural para determinar el estilo, el tono, el ritmo y la expresión emocional.

Quickstart

Chirp 3: Descripción general de las voces en HD

Aprende a sintetizar una voz realista y emocionalmente resonante con Chirp 3: Voces en HD, y a ajustar el audio con controles avanzados y prácticas recomendadas de escritura de secuencias de comandos.

Quickstart

Chirp 3: Descripción general de las voces personalizadas instantáneas

Crea modelos de voz personalizados y únicos con solo 10 segundos de grabaciones de audio para tu organización. Esta acción permite la generación rápida de voces personales.

Tutorial

Reproduce direcciones en voz alta con SSML

Aprende a usar el lenguaje de marcado de síntesis de voz (SSML) para que se reproduzca un archivo de texto de direcciones.

Google Cloud Basics

Conceptos básicos de Text-to-Speech

Una guía de los conceptos fundamentales para usar la API de Text‑to‑Speech.

Google Cloud Basics

Idiomas y voces compatibles

Explora guías y recursos sobre este producto.

¿No encuentras lo que buscas?

Notas de la versión

Obtén información sobre las versiones más recientes de Text‑to‑Speech

Casos de uso

Caso de uso

Bots de voz en centros de contacto

Ofrece una mejor experiencia de voz para la atención al cliente con bots de voz de Dialogflow que generan voces de manera dinámica, en vez de reproducir un audio estático previamente grabado. Interactúa con voces sintetizadas de alta calidad que ofrecen una sensación de familiaridad y personalización a quienes llaman.

Flujo de la API de Google Cloud Speech-to-Text

Caso de uso

Generación de voz en dispositivos

Ofrece una comunicación natural a tus usuarios. Para ello, potencia los dispositivos, como los lectores de texto, de modo que usen voces similares a las humanas. Diseña una interfaz de usuario de voz de extremo a extremo junto con Speech-to-Text y Natural Language para mejorar la experiencia del usuario a través de interacciones sencillas y atractivas.

Flujo de voz a texto con IoT y dispositivos

Caso de uso

EPG (guías electrónicas de programas) accesibles

Haz que las EPG lean fácilmente texto en voz alta para proporcionar a los clientes una mejor experiencia del usuario y cumplir con los requisitos de accesibilidad de tus servicios y aplicaciones. Prueba la demostración de EPG.

Implementa fácilmente la función de texto a voz en las EPG para proporcionar a los clientes una mejor experiencia del usuario y cumplir con los requisitos de accesibilidad de tus servicios y aplicaciones.

Todas las características

Todas las funciones

Síntesis de transmisión de audio	Potencia tus agentes de IA con voz de latencia ultrabaja para conversaciones fluidas y en tiempo real con síntesis de transmisión de audio.
Síntesis de audio largo	Sintetiza de forma asíncrona hasta 1 millón de bytes de entrada con la síntesis de audio largo.
Selección de idioma y voz	Elige entre una amplia selección de más de 380 voces disponibles en más de 75 idiomas y variantes. Pronto agregaremos más.
Compatibilidad con formatos de texto y SSML	Personaliza tu voz con etiquetas de SSML que te permiten agregar formatos de fecha y hora, pausas y números, además de otras instrucciones de pronunciación.
Ajuste del tono	Personaliza el tono de la voz seleccionada hasta 20 semitonos más o menos que la voz predeterminada.
Ajuste de la velocidad del habla	Personaliza tu velocidad de habla para que sea hasta 4 veces más rápida o lenta que la velocidad normal.
Control del aumento de volumen	Aumenta el volumen de la voz hasta 16 dB o disminúyelo hasta -96 dB.
APIs de REST y gRPC integradas	Integra el servicio con facilidad en cualquier app o dispositivo que pueda enviar solicitudes de REST o gRPC, como teléfonos, PCs, tablets y dispositivos de IoT (por ejemplo, autos, TVs o bocinas).
Flexibilidad de formatos de audio	Convierte texto en MP3, Linear16, OGG Opus y muchos otros formatos de audio.
Perfiles de audio	Optimiza el tipo de bocina desde el que se reproducirá la voz, como auriculares o líneas telefónicas.

Precios

Text‑to‑Speech se cobra según la cantidad de caracteres que se envíen al servicio para sintetizarse como audio cada mes. El primer millón de caracteres de cada mes para voces de WaveNet es gratuito. En el caso de las voces estándar (que no son de WaveNet), los primeros 4 millones de caracteres de cada mes son gratuitos. Después de que se supera el nivel gratuito, el precio de Text‑to‑Speech se cobra por cada 1 millón de caracteres de texto procesado.

Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Google Cloud.

Da el siguiente paso

Los clientes nuevos obtienen $300 en créditos gratuitos para probar Text‐to‐Speech y otros productos de Google Cloud.

¿Necesitas ayuda para comenzar?
Comunicarse con Ventas
Trabaja con un socio confiable
Buscar un socio
Sigue explorando
Ver todos los productos

IA de Text‐to‐Speech

Voz de alta fidelidad

La selección de voces más amplia disponible

Voz única

Implementa Text-to-Speech

Funciones clave

Gemini-TTS

Chirp 3: Voces en HD

Chirp 3: Voz personalizada instantánea

Compatibilidad con instrucciones, texto y SSML

Novedades

Documentación

Gemini-TTS

Chirp 3: Descripción general de las voces en HD

Chirp 3: Descripción general de las voces personalizadas instantáneas

Reproduce direcciones en voz alta con SSML

Conceptos básicos de Text-to-Speech

Idiomas y voces compatibles

¿No encuentras lo que buscas?

Explora más documentos

Casos de uso

Bots de voz en centros de contacto

Generación de voz en dispositivos

EPG (guías electrónicas de programas) accesibles

Todas las funciones

Precios

Da el siguiente paso

¿Necesitas ayuda para comenzar?

Trabaja con un socio confiable

Sigue explorando