Prueba Gemini 1.5 Pro, nuestro modelo multimodal más avanzado de Vertex AI, y descubre qué puedes crear con una ventana contextual de token de 1 millón.

Speech‑to‑Text

Convierte voz en texto con la IA de Google

Convierte archivos audio en transcripciones de texto e integra el reconocimiento de voz en aplicaciones con API fáciles de usar.

Disfruta de hasta 60 minutos gratis al mes para transcribir y analizar audio.* Los nuevos clientes también reciben hasta 300 USD en crédito gratis para probar Speech‐to‐Text y otros productos de Google Cloud.

Empezar a transcribir Contactar con Ventas

*Solo se aplica al procesamiento de audio con la API Speech-to-Text V1.

Características

IA de voz avanzada

Speech-to-Text puede utilizar Chirp, el modelo básico de Google Cloud para la voz entrenado con millones de horas de datos de audio y miles de millones de frases de texto. Esto contrasta con las técnicas tradicionales de reconocimiento de voz, que se centran en grandes cantidades de datos supervisados específicos de cada idioma. Estas técnicas facilitan el reconocimiento y la transcripción para los usuarios cuando se hablan más idiomas y acentos.

Compatibilidad con 125 idiomas y variantes

Desarrolla una base de usuarios global y permite la compatibilidad con un amplio abanico de idiomas. Transcribe datos de audio cortos, largos e incluso en streaming. Speech-to-Text también ofrece a los usuarios traducciones y un reconocimiento más precisos y de alcance internacional con Chirp, la nueva generación de modelos de voz universales. Chirp se creó mediante entrenamiento autosupervisado en millones de horas de audio y 28.000 millones de frases de texto en más de 100 idiomas.

Transcribe audio corto, largo o en streaming

Ver guía

Modelos entrenados previamente o personalizables para la transcripción

Elige entre una selección de modelos entrenados para recibir controles por voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Personaliza, experimenta, crea y gestiona fácilmente con recursos personalizados en la interfaz de usuario de Speech-to-Text.

Cumplimiento de normativas y seguridad desde el primer momento

La versión 2 de la API Speech-to-Text ofrece a los clientes corporativos y empresariales requisitos adicionales normativos y de seguridad desde el primer momento. La residencia de datos permite invocar modelos de transcripción a través de un servicio totalmente regionalizado que aprovecha las regiones de Google Cloud, como Singapur y Bélgica. La función de reconocimiento de recursos elimina la necesidad de contar con cuentas de servicio dedicadas para la autenticación y la autorización. En la consola de Google Cloud puedes acceder fácilmente a los registros para generar y transcribir recursos. La versión 2 de la API Speech-to-Text ofrece un cifrado de nivel empresarial con claves de cifrado gestionadas por el cliente para todos los recursos, así como transcripción en lotes.

Reconocimiento y transcripción de voz basados en IA

Speech-to-Text utiliza la adaptación de modelos para mejorar la precisión de las palabras utilizadas con frecuencia, ampliar el vocabulario disponible para transcribir y mejorar la transcripción de audio ruidoso. La adaptación de modelos permite a los usuarios personalizar Speech-to-Text para reconocer palabras o frases concretas con más frecuencia que otras opciones que, de otro modo, se habrían sugerido. Por ejemplo, puedes ajustar Speech-to-Text para que transcriba con más frecuencia "cuando" en lugar de "cuanto".

Reconocimiento de voz en streaming

Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage).

Adaptación de voz

Utiliza sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.

Speech‑to‑Text On‑Prem

Disfruta de un control total sobre tu infraestructura y sobre datos de discurso oral protegidos a la vez que aprovechas la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar.

Reconocimiento multicanal

Speech-to-Text puede distinguir entre un canal y otro en las situaciones donde intervengan varios canales (por ejemplo, en una videoconferencia) y anotar las transcripciones para mantener el orden de aparición.

Tratamiento del ruido

Speech-to-Text puede procesar archivos de audio de multitud de entornos ruidosos sin necesidad de aplicar ninguna reducción adicional del ruido.

Modelos para dominios específicos

Elige entre una selección de modelos entrenados para recibir control por voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para procesar los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas a una frecuencia de muestreo de 8 kHz).

Filtrado de contenido

El filtro de palabras malsonantes te ayuda a detectar el contenido que no sea adecuado o profesional en los datos de audio y a descartar las palabras inapropiadas en los resultados de texto.

Evaluación de las transcripciones

Sube datos de tu voz y transcribe mensajes sin necesidad de usar código. Evalúa la calidad iterando la configuración.

Puntuación automática (beta)

Speech-to-Text puntúa las transcripciones con precisión, ya sea mediante comas, signos de interrogación y puntos.

Diarización de interlocutores

La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién ha dicho qué.

Cómo funciona

Speech-to-Text cuenta con tres métodos principales para realizar el reconocimiento de voz: síncrono, asíncrono y en streaming. Cada método devuelve resultados de texto en función de si es necesario transcribir después de procesarlo, de forma periódica o en tiempo real. Básicamente, cuando introduces datos de audio, recibes una respuesta de texto.

Ver documentación

Añade transcripción de voz a una aplicación

Consulta cómo añadir Speech-to-Text a tus aplicaciones

Demo

Prueba la API Speech-to-Text

Crea rápidamente transcripciones de audio a partir de un archivo subido o habla directamente a un micrófono.

Usos habituales

Transcribir audio

Crea una transcripción de audio

Aprende a usar la API Speech-to-Text desde la consola de Cloud creando una transcripción de audio en solo unos pasos. También puedes transcribir audios cortos, largos y en streaming.

Empezar a usar Speech-to-Text

Tutoriales, guías de inicio rápido y experimentos

Crea una transcripción de audio

Aprende a usar la API Speech-to-Text desde la consola de Cloud creando una transcripción de audio en solo unos pasos. También puedes transcribir audios cortos, largos y en streaming.

Empezar a usar Speech-to-Text

Subtitula vídeos usando IA

Crea subtítulos para vídeos con IA

Transcribe archivos de audio y vídeo e incluye subtítulos. Añade subtítulos a tu contenido o en tiempo real al contenido en streaming. Nuestro modelo de transcripción de vídeo es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, utiliza una tecnología de aprendizaje automático similar a la que utiliza YouTube para subtitular vídeos. En este tutorial se explica cómo usar las API Speech-to-Text y la API Translation de los servicios de IA de Google Cloud para añadir subtítulos a vídeos y proporcionar subtítulos localizados en otros idiomas.

Ver el tutorial de subtítulos automáticos

Tutoriales, guías de inicio rápido y experimentos

Crea subtítulos para vídeos con IA

Transcribe archivos de audio y vídeo e incluye subtítulos. Añade subtítulos a tu contenido o en tiempo real al contenido en streaming. Nuestro modelo de transcripción de vídeo es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, utiliza una tecnología de aprendizaje automático similar a la que utiliza YouTube para subtitular vídeos. En este tutorial se explica cómo usar las API Speech-to-Text y la API Translation de los servicios de IA de Google Cloud para añadir subtítulos a vídeos y proporcionar subtítulos localizados en otros idiomas.

Ver el tutorial de subtítulos automáticos

Añade Speech-to-Text a aplicaciones

Cómo añadir Speech-to-Text a las aplicaciones

Descubre cómo habilitar Speech-to-Text en tu aplicación de forma rápida y sencilla con Google Cloud. En este vídeo se explica cómo añadir IA a una aplicación sin una amplia experiencia en modelos de aprendizaje automático. Con la API Speech-to-Text preentrenada, podrás habilitar la IA en tu aplicación de forma rápida y sencilla.

Ver vídeo de ejemplo

Transcripción avanzada con la tecnología de la IA de Google y la interfaz de APIs

Añadir control por voz a las aplicaciones

Tutoriales, guías de inicio rápido y experimentos

Cómo añadir Speech-to-Text a las aplicaciones

Descubre cómo habilitar Speech-to-Text en tu aplicación de forma rápida y sencilla con Google Cloud. En este vídeo se explica cómo añadir IA a una aplicación sin una amplia experiencia en modelos de aprendizaje automático. Con la API Speech-to-Text preentrenada, podrás habilitar la IA en tu aplicación de forma rápida y sencilla.

Ver vídeo de ejemplo

Añadir control por voz a las aplicaciones

Traduce audio a texto

Idioma, voz, texto y traducción con las APIs de Google Cloud

En este curso, usarás la API Speech-to-Text para transcribir un archivo de audio en un archivo de texto, traducir con la API Google Cloud Translation y crear voces sintéticas con Natural Language. IA.

Empezar curso

Tutoriales, guías de inicio rápido y experimentos

Idioma, voz, texto y traducción con las APIs de Google Cloud

En este curso, usarás la API Speech-to-Text para transcribir un archivo de audio en un archivo de texto, traducir con la API Google Cloud Translation y crear voces sintéticas con Natural Language. IA.

Empezar curso

Precios

Cómo funcionan los precios de Speech-to-Text	Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento.
Versión de la API	Servicio y capacidad	Precios
Versión 1 de la API Speech-to-Text	La versión 1 solo ofrece residencia de datos para varias regiones. Los modelos pueden ser cortos, largos, de llamada telefónica y de vídeo. La versión 1 no incluye el registro de auditoría.Los nuevos clientes reciben 300 USD en crédito gratis y 60 minutos al mes para transcribir y analizar audio, sin que se les descuente de su crédito.	0,024 USD por minuto
Versión 2 de la API Speech-to-Text	La versión 2 ofrece residencia de datos para varias regiones y para una sola región. Los modelos pueden ser cortos, largos, de llamada telefónica, de vídeo y de Chirp. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente.	0,016 USD por minuto

Cómo funcionan los precios de Speech-to-Text

Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento.

Versión de la API

Servicio y capacidad

Precios

Versión 1 de la API Speech-to-Text

La versión 1 solo ofrece residencia de datos para varias regiones. Los modelos pueden ser cortos, largos, de llamada telefónica y de vídeo. La versión 1 no incluye el registro de auditoría.Los nuevos clientes reciben 300 USD en crédito gratis y 60 minutos al mes para transcribir y analizar audio, sin que se les descuente de su crédito.

0,024 USD

por minuto

Versión 2 de la API Speech-to-Text

La versión 2 ofrece residencia de datos para varias regiones y para una sola región. Los modelos pueden ser cortos, largos, de llamada telefónica, de vídeo y de Chirp. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente.

0,016 USD

por minuto

Consulta la información de precios de Speech-to-Text.

Cómo funcionan los precios de Speech-to-Text

Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento.

Versión 1 de la API Speech-to-Text

Servicio y capacidad

La versión 1 solo ofrece residencia de datos para varias regiones. Los modelos pueden ser cortos, largos, de llamada telefónica y de vídeo. La versión 1 no incluye el registro de auditoría.Los nuevos clientes reciben 300 USD en crédito gratis y 60 minutos al mes para transcribir y analizar audio, sin que se les descuente de su crédito.

Precios

0,024 USD

por minuto

Versión 2 de la API Speech-to-Text

Servicio y capacidad

La versión 2 ofrece residencia de datos para varias regiones y para una sola región. Los modelos pueden ser cortos, largos, de llamada telefónica, de vídeo y de Chirp. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente.

Precios

0,016 USD

por minuto

Consulta la información de precios de Speech-to-Text.

Calculadora de precios

Calcula tus costes mensuales de Speech-to-Text, incluyendo los precios y las tarifas específicas de cada región.

Calcular los costes

Presupuesto personalizado

Ponte en contacto con nuestro equipo de ventas para solicitar un presupuesto personalizado para tu organización.

Solicitar un presupuesto

Empieza tu prueba de concepto

Los nuevos clientes reciben hasta 300 USD en crédito gratis para probar Speech-to-Text y otros productos de Google Cloud

Empezar gratis

Speech‑to‑Text

Convierte voz en texto con la IA de Google

Aspectos destacados del producto

IA de voz avanzada

Compatibilidad con 125 idiomas y variantes

Modelos entrenados previamente o personalizables para la transcripción

Cumplimiento de normativas y seguridad desde el primer momento

Reconocimiento y transcripción de voz basados en IA

Reconocimiento de voz en streaming

Adaptación de voz

Speech‑to‑Text On‑Prem

Reconocimiento multicanal

Tratamiento del ruido

Modelos para dominios específicos

Filtrado de contenido

Evaluación de las transcripciones

Puntuación automática (beta)

Diarización de interlocutores

Prueba la API Speech-to-Text

Transcribir audio

Crea una transcripción de audio

Tutoriales, guías de inicio rápido y experimentos

Crea una transcripción de audio

Subtitula vídeos usando IA

Crea subtítulos para vídeos con IA

Tutoriales, guías de inicio rápido y experimentos

Crea subtítulos para vídeos con IA

Añade Speech-to-Text a aplicaciones

Cómo añadir Speech-to-Text a las aplicaciones

Tutoriales, guías de inicio rápido y experimentos

Cómo añadir Speech-to-Text a las aplicaciones

Traduce audio a texto

Idioma, voz, texto y traducción con las APIs de Google Cloud

Tutoriales, guías de inicio rápido y experimentos

Idioma, voz, texto y traducción con las APIs de Google Cloud

Calculadora de precios

Presupuesto personalizado

Empieza tu prueba de concepto

Los nuevos clientes reciben hasta 300 USD en crédito gratis para probar Speech-to-Text y otros productos de Google Cloud

¿Tienes un proyecto de gran envergadura?

Speech‑to‑Text On‑Prem

Aspectos básicos de Speech-to-Text

Códigos de ejemplo de Speech-to-Text