Prueba Gemini 3, nuestro mejor modelo de razonamiento, programación y comprensión multimodal en Gemini Enterprise Agent Platform

Speech‑to‑Text

Convierte voz en texto con la IA de Google

Convierte audio en transcripciones de texto e integra el reconocimiento de voz en aplicaciones con APIs fáciles de usar.

Los nuevos clientes también reciben hasta 300 USD en crédito sin coste para probar Speech‐to‐Text y otros productos de Google Cloud.

Características

IA de voz avanzada

Speech-to-Text puede utilizar Chirp 3, el modelo básico de Google Cloud para la voz entrenado con millones de horas de datos de audio y miles de millones de frases de texto. Esto contrasta con las técnicas tradicionales de reconocimiento de voz, que se centran en grandes cantidades de datos supervisados específicos de cada idioma. Estas técnicas facilitan el reconocimiento y la transcripción para los usuarios cuando se hablan más idiomas y acentos.

Compatibilidad con más de 85 idiomas y variantes

Desarrolla una base de usuarios global y permite la compatibilidad con un amplio abanico de idiomas. Transcribe datos de audio cortos, largos e incluso en streaming. Speech-to-Text también ofrece a los usuarios implementaciones más precisas y de alcance internacional para desplegar funciones de transcripción con Chirp 3, la nueva generación de modelos de voz universales.

La función de transcripción de Chirp 3 se creó mediante entrenamiento autosupervisado en millones de horas de audio y 28.000 millones de frases de texto en más de 100 idiomas.

Transcribe audio corto, largo o en streaming

Ver guía

Reconocimiento de voz en streaming

Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage).

Reconocimiento y transcripción de voz basados en IA

Speech-to-Text utiliza la adaptación de modelos para mejorar la precisión de las palabras utilizadas con frecuencia, ampliar el vocabulario disponible para transcribir y mejorar la transcripción de audio ruidoso. La adaptación de modelos permite a los usuarios personalizar Speech-to-Text para reconocer palabras o frases concretas con más frecuencia que otras opciones que, de otro modo, se habrían sugerido. Por ejemplo, puedes ajustar Speech-to-Text para que transcriba con más frecuencia "cuando" en lugar de "cuanto".

Cumplimiento de normativas y seguridad desde el primer momento

La versión 2 de la API Speech-to-Text ofrece a los clientes corporativos y empresariales requisitos adicionales normativos y de seguridad desde el primer momento. La residencia de datos permite invocar modelos de transcripción a través de un servicio totalmente regionalizado que aprovecha las regiones de Google Cloud, como Singapur y Bélgica. En la consola de Google Cloud puedes acceder fácilmente a los registros para generar y transcribir recursos. La versión 2 de la API Speech-to-Text ofrece un cifrado de nivel empresarial con claves de cifrado gestionadas por el cliente para todos los recursos, así como transcripción en lotes.

Adaptación de voz

Utiliza sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.

Speech-to-Text On-Prem

Disfruta de un control total sobre tu infraestructura y sobre datos de discurso oral protegidos a la vez que aprovechas la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar.

Reconocimiento multicanal

Speech-to-Text puede distinguir entre un canal y otro en las situaciones donde intervengan varios canales (por ejemplo, en una videoconferencia) y anotar las transcripciones para mantener el orden de aparición.

Tratamiento del ruido

Speech-to-Text puede procesar archivos de audio de multitud de entornos ruidosos sin necesidad de aplicar ninguna reducción adicional del ruido.

Modelos para dominios específicos

Elige entre una selección de modelos entrenados para recibir control por voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para procesar los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas a una frecuencia de muestreo de 8 kHz).

Filtrado de contenido

El filtro de palabras malsonantes te ayuda a detectar el contenido que no sea adecuado o profesional en los datos de audio y a descartar las palabras inapropiadas en los resultados de texto.

Evaluación de las transcripciones

Sube datos de tu voz y transcribe mensajes sin necesidad de usar código. Evalúa la calidad iterando la configuración.

Puntuación automática (beta)

Speech-to-Text puntúa las transcripciones con precisión, ya sea mediante comas, signos de interrogación y puntos.

Diarización de interlocutores

La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién ha dicho qué.

Compara el modelo Chirp de Speech-to-Text en la API y en Agent Studio

Producto	¿Qué es?	Usos recomendados	Características principales
Chirp 3: Transcripción en Agent Platform	Una interfaz gráfica de usuario basada en la Web y sin código, muy fácil de usar.	Prueba archivos de audio rápidamente, crea prototipos al momento, crea transcripciones de audio, sube audio o grabaciones directamente a un navegador web.	- Detección y transcripción de idiomas multilingües mejoradas - Admite la transcripción en más de 85 idiomas y variantes - Admite la diarización del interlocutor y la adaptación del modelo - Reconocimiento automático de voz, que transcribe el audio en texto - Detección y transcripción de idiomas multilingües
Chirp 3: transcripción con la API de la versión 2 de Speech-to-Text	Una API que es la nueva generación del modelo universal de voz a texto de Google, que unifica datos de varios idiomas.	Desarrollar aplicaciones escalables de nivel empresarial. Integración sencilla de la función de transcripción en el software que ya usas.	- Detección y transcripción de idiomas multilingües mejoradas - Admite la transcripción en más de 85 idiomas y variantes - Admite la diarización del interlocutor y la adaptación del modelo - Reconocimiento automático de voz, que transcribe el audio en texto - Detección y transcripción de idiomas multilingües

Chirp 3: Transcripción en Agent Platform

¿Qué es?

Una interfaz gráfica de usuario basada en la Web y sin código, muy fácil de usar.

Usos recomendados

Prueba archivos de audio rápidamente, crea prototipos al momento, crea transcripciones de audio, sube audio o grabaciones directamente a un navegador web.

Características principales

- Detección y transcripción de idiomas multilingües mejoradas

- Admite la transcripción en más de 85 idiomas y variantes

- Admite la diarización del interlocutor y la adaptación del modelo

- Reconocimiento automático de voz, que transcribe el audio en texto

- Detección y transcripción de idiomas multilingües

Chirp 3: transcripción con la API de la versión 2 de Speech-to-Text

¿Qué es?

Una API que es la nueva generación del modelo universal de voz a texto de Google, que unifica datos de varios idiomas.

Usos recomendados

Desarrollar aplicaciones escalables de nivel empresarial.

Integración sencilla de la función de transcripción en el software que ya usas.

Características principales

- Detección y transcripción de idiomas multilingües mejoradas

- Admite la transcripción en más de 85 idiomas y variantes

- Admite la diarización del interlocutor y la adaptación del modelo

- Reconocimiento automático de voz, que transcribe el audio en texto

- Detección y transcripción de idiomas multilingües

Cómo funciona

Speech-to-Text cuenta con tres métodos principales para realizar el reconocimiento de voz: síncrono, asíncrono y en streaming. Cada método devuelve resultados de texto en función de si es necesario transcribir después de procesarlo, de forma periódica o en tiempo real. Básicamente, cuando introduces datos de audio, recibes una respuesta de texto.

Añade transcripción de voz a una aplicación

Consulta cómo añadir Speech-to-Text a tus aplicaciones

Demo

Prueba la API Speech-to-Text

Crea rápidamente transcripciones de audio a partir de un archivo subido o habla directamente a un micrófono.

Usos habituales

Transcribir audio

Crea una transcripción de audio

Aprende a usar la API Speech-to-Text desde la consola de Google Cloud creando una transcripción de audio en solo unos pasos. También puedes transcribir audios en streaming, cortos y largos.

Vista previa de la herramienta de subida de Speech-to-Text

Tutoriales, guías de inicio rápido y experimentos

Crea una transcripción de audio

Aprende a usar la API Speech-to-Text desde la consola de Google Cloud creando una transcripción de audio en solo unos pasos. También puedes transcribir audios en streaming, cortos y largos.

Vista previa de la herramienta de subida de Speech-to-Text

Subtitula vídeos usando IA

Crea subtítulos para vídeos con IA

Transcribe archivos de audio y vídeo e incluye subtítulos. Añade subtítulos a tu contenido o en tiempo real al contenido en streaming. Nuestro modelo de transcripción Chirp 3 es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, utiliza una tecnología de aprendizaje automático similar a la que usa YouTube para subtitular vídeos.

En este tutorial se explica cómo usar la API Speech-to-Text y la API Translation de los servicios de IA de Google Cloud para añadir subtítulos a vídeos y proporcionar subtítulos localizados en otros idiomas.

Tutoriales, guías de inicio rápido y experimentos

Crea subtítulos para vídeos con IA

Transcribe archivos de audio y vídeo e incluye subtítulos. Añade subtítulos a tu contenido o en tiempo real al contenido en streaming. Nuestro modelo de transcripción Chirp 3 es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, utiliza una tecnología de aprendizaje automático similar a la que usa YouTube para subtitular vídeos.

En este tutorial se explica cómo usar la API Speech-to-Text y la API Translation de los servicios de IA de Google Cloud para añadir subtítulos a vídeos y proporcionar subtítulos localizados en otros idiomas.

Añade Speech-to-Text a aplicaciones

Cómo añadir Speech-to-Text a las aplicaciones

Descubre cómo habilitar Speech-to-Text en tu aplicación de forma rápida y sencilla con Google Cloud. En este vídeo se explica cómo añadir IA a una aplicación sin una amplia experiencia en modelos de aprendizaje automático. Con la API Speech-to-Text preentrenada, podrás habilitar la IA en tu aplicación de forma rápida y sencilla.

Transcripción avanzada con la tecnología de la IA de Google y la interfaz de APIs

Añadir control por voz a las aplicaciones

Tutoriales, guías de inicio rápido y experimentos

Cómo añadir Speech-to-Text a las aplicaciones

Descubre cómo habilitar Speech-to-Text en tu aplicación de forma rápida y sencilla con Google Cloud. En este vídeo se explica cómo añadir IA a una aplicación sin una amplia experiencia en modelos de aprendizaje automático. Con la API Speech-to-Text preentrenada, podrás habilitar la IA en tu aplicación de forma rápida y sencilla.

Añadir control por voz a las aplicaciones

Traduce audio a texto

Idioma, voz, texto y traducción con las APIs de Google Cloud

En este curso, usarás la API Speech-to-Text para transcribir un archivo de audio en un archivo de texto, traducir con la API Google Cloud Translation y crear voces sintéticas con Natural Language. IA.

Tutoriales, guías de inicio rápido y experimentos

Idioma, voz, texto y traducción con las APIs de Google Cloud

En este curso, usarás la API Speech-to-Text para transcribir un archivo de audio en un archivo de texto, traducir con la API Google Cloud Translation y crear voces sintéticas con Natural Language. IA.

Precios

Cómo funcionan los precios de Speech-to-Text	Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento.
Versión de la API	Servicio y capacidad	Precios
Versión 2 de la API Speech-to-Text	La versión 2 ofrece residencia de datos para implementaciones de Chirp 3 en varias regiones y en una sola región. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente.	0,016 USD por minuto

Cómo funcionan los precios de Speech-to-Text

Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento.

Versión de la API

Servicio y capacidad

Precios

Versión 2 de la API Speech-to-Text

La versión 2 ofrece residencia de datos para implementaciones de Chirp 3 en varias regiones y en una sola región. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente.

0,016 USD

por minuto

Consulta la información de precios de Speech-to-Text.

Cómo funcionan los precios de Speech-to-Text

Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento.

Versión 2 de la API Speech-to-Text

Servicio y capacidad

La versión 2 ofrece residencia de datos para implementaciones de Chirp 3 en varias regiones y en una sola región. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente.

Precios

0,016 USD

por minuto

Consulta la información de precios de Speech-to-Text.

Calculadora de precios

Calcula tus costes mensuales de Speech-to-Text, incluyendo los precios y las tarifas específicas de cada región.

Presupuesto personalizado

Ponte en contacto con nuestro equipo de Ventas para solicitar un presupuesto personalizado para tu organización.

Speech‑to‑Text

Convierte voz en texto con la IA de Google

Aspectos destacados del producto

IA de voz avanzada

Compatibilidad con más de 85 idiomas y variantes

Reconocimiento de voz en streaming

Reconocimiento y transcripción de voz basados en IA

Cumplimiento de normativas y seguridad desde el primer momento

Adaptación de voz

Speech-to-Text On-Prem

Reconocimiento multicanal

Tratamiento del ruido

Modelos para dominios específicos

Filtrado de contenido

Evaluación de las transcripciones

Puntuación automática (beta)

Diarización de interlocutores

Prueba la API Speech-to-Text

Transcribir audio

Crea una transcripción de audio

Tutoriales, guías de inicio rápido y experimentos

Crea una transcripción de audio

Subtitula vídeos usando IA

Crea subtítulos para vídeos con IA

Tutoriales, guías de inicio rápido y experimentos

Crea subtítulos para vídeos con IA

Añade Speech-to-Text a aplicaciones

Cómo añadir Speech-to-Text a las aplicaciones

Tutoriales, guías de inicio rápido y experimentos

Cómo añadir Speech-to-Text a las aplicaciones

Traduce audio a texto

Idioma, voz, texto y traducción con las APIs de Google Cloud

Tutoriales, guías de inicio rápido y experimentos

Idioma, voz, texto y traducción con las APIs de Google Cloud

Calculadora de precios

Presupuesto personalizado

Empieza tu prueba de concepto

Los nuevos clientes reciben hasta 300 USD en crédito sin coste para probar Speech-to-Text y otros productos de Google Cloud

¿Tienes un proyecto de gran envergadura?

Speech-to-Text On-Prem

Aspectos básicos de Speech-to-Text

Códigos de ejemplo de Speech-to-Text