Prueba Gemini 3, nuestro mejor modelo para el razonamiento, la programación y la comprensión multimodal en Vertex AI.

Speech‑to‑Text

Convierte voz en texto con la IA de Google

Convierte audio en transcripciones de texto y, además, integra el reconocimiento de voz en aplicaciones con APIs fáciles de usar.

Los clientes nuevos también obtienen hasta $300 en créditos gratuitos para probar Speech-to-Text y otros productos de Google Cloud.

Funciones

IA de voz avanzada

Speech-to-Text puede usar Chirp 3, el modelo de base de Google Cloud para la voz entrenado con millones de horas de datos de audio y miles de millones de oraciones de texto.Esto contrasta con las técnicas tradicionales de reconocimiento de voz que se enfocan en grandes cantidades de datos supervisados específicos de un idioma. Estas técnicas permiten a los usuarios mejorar el reconocimiento y la transcripción de los idiomas y acentos más hablados.

Compatibilidad con más de 85 idiomas y variantes

Crea una base de usuarios global con amplia compatibilidad lingüística. Transcribe datos de audio cortos, largos o incluso transmisiones. Speech-to-Text también ofrece a los usuarios implementaciones más precisas que abarcan todo el mundo para la transcripción con Chirp 3, la nueva generación de modelos de voz universales.

Chirp 3: Transcripción se creó con entrenamiento autosupervisado en millones de horas de audio y 28,000 millones de oraciones de textos en más de 100 idiomas.

Transcribe audio corto, largo o en streaming

Ver la guía

Reconocimiento de voz en vivo

Recibe resultados de reconocimiento de voz en tiempo real a medida que la API procesa la entrada de audio transmitida desde el micrófono de tu aplicación o enviada desde un archivo de audio pregrabado (intercalada o a través de Cloud Storage).

Reconocimiento y transcripción de voz potenciados por IA

Speech-to-Text usa la adaptación de modelos para mejorar la exactitud de las palabras de uso frecuente, expandir el vocabulario disponible para la transcripción y mejorar la transcripción de audio ruidoso. La adaptación de modelos permite a los usuarios personalizar Speech-to-Text para reconocer palabras o frases específicas con mayor frecuencia que otras opciones que, de otro modo, se podrían sugerir. Por ejemplo, puedes personalizar Speech-to-Text para que transcriba “clima” en lugar de “si”.

Cumplimiento de normativas y seguridad listo para usar

La versión 2 de la API de Speech-to-Text ofrece a los clientes empresariales requisitos regulatorios y de seguridad adicionales desde el primer momento. La residencia de datos permite invocar modelos de transcripción a través de un servicio completamente regionalizado que aprovecha las regiones de Google Cloud, como Singapur y Bélgica. Los registros para la generación y transcripción de recursos están disponibles con facilidad en la consola de Google Cloud. Además, la versión 2 de la API de Speech-to-Text ofrece encriptación de nivel empresarial con claves de encriptación administradas por el cliente para todos los recursos, así como transcripción por lotes.

Adaptación de voz

Personaliza el reconocimiento de voz para transcribir términos específicos del dominio y palabras poco frecuentes con sugerencias, y mejora la precisión de la transcripción de palabras o frases específicas. Usa clases para convertir de forma automática los números pronunciados en direcciones, años, monedas y mucho más.

Speech-to-Text On-Prem

Consigue un control total de tu infraestructura y tus datos de voz protegidos, y aprovecha la tecnología de reconocimiento de voz de Google de forma local, directamente en tus centros de datos privados. Comunícate con Ventas para comenzar.

Reconocimiento de varios canales

Speech‑to‑Text puede reconocer canales individuales en situaciones multicanal (por ejemplo, videoconferencias) y realizar anotaciones en las transcripciones para preservar el orden.

Resistencia al ruido

Speech‑to‑Text puede procesar el audio con ruido proveniente de muchos entornos sin necesidad de usar una cancelación de ruido adicional.

Modelos específicos del dominio

Elige entre varios modelos entrenados y seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria para satisfacer los requisitos de calidad específicos del dominio. Por ejemplo, nuestro modelo mejorado para llamadas telefónicas está ajustado para el audio que se origina a través de la telefonía, como las llamadas grabadas con una tasa de muestreo de 8 kHz.

Filtrado de contenido

El filtro de lenguaje obsceno te ayuda a detectar el contenido inadecuado o poco profesional en tus datos de audio y a filtrar las palabras obscenas en los resultados de texto.

Evaluación de la transcripción

Sube tus propios datos de voz y transcríbelos sin código. Evalúa la calidad a través de iteraciones en la configuración.

Puntuación automática (beta)

Speech-to-Text aplica la puntuación precisa a las transcripciones, por ejemplo, agrega comas, signos de interrogación y puntos.

Identificación de interlocutores

Recibe predicciones automáticas sobre cuál de los interlocutores pronunció cada enunciado de una conversación para saber quién dijo qué.

Compara el modelo Chirp de Speech-to-Text en la API y Vertex AI Studio

Producto	Qué es	Ideal para	Características clave
Chirp 3: Transcripción en Vertex AI	Es una interfaz gráfica de usuario basada en la Web, sin código y fácil de usar.	Prueba archivos de audio rápidamente, diseña prototipos con rapidez, crea transcripciones de audio, sube audio o grabaciones directamente en un navegador web.	- Detección y transcripción mejoradas de idiomas multilingües - Admite transcripciones en más de 85 idiomas y variantes - Admite la identificación de interlocutores y la adaptación de modelos - Reconocimiento de voz automático, que permite transcribir audio a texto - Detección y transcripción de idiomas multilingües
Chirp 3: Transcripción en la versión 2 de la API de Speech-to-Text	Una API que es la nueva generación del modelo universal de Speech-to-Text de Google, que unifica datos de varios idiomas.	Compilación de aplicaciones escalables de nivel empresarial Integración sencilla de la transcripción en el software existente	- Detección y transcripción mejoradas de idiomas multilingües - Admite transcripciones en más de 85 idiomas y variantes - Admite la identificación de interlocutores y la adaptación de modelos - Reconocimiento de voz automático, que permite transcribir audio a texto - Detección y transcripción de idiomas multilingües

Chirp 3: Transcripción en Vertex AI

Qué es

Es una interfaz gráfica de usuario basada en la Web, sin código y fácil de usar.

Ideal para

Prueba archivos de audio rápidamente, diseña prototipos con rapidez, crea transcripciones de audio, sube audio o grabaciones directamente en un navegador web.

Características clave

- Detección y transcripción mejoradas de idiomas multilingües

- Admite transcripciones en más de 85 idiomas y variantes

- Admite la identificación de interlocutores y la adaptación de modelos

- Reconocimiento de voz automático, que permite transcribir audio a texto

- Detección y transcripción de idiomas multilingües

Chirp 3: Transcripción en la versión 2 de la API de Speech-to-Text

Qué es

Una API que es la nueva generación del modelo universal de Speech-to-Text de Google, que unifica datos de varios idiomas.

Ideal para

Compilación de aplicaciones escalables de nivel empresarial

Integración sencilla de la transcripción en el software existente

Características clave

- Detección y transcripción mejoradas de idiomas multilingües

- Admite transcripciones en más de 85 idiomas y variantes

- Admite la identificación de interlocutores y la adaptación de modelos

- Reconocimiento de voz automático, que permite transcribir audio a texto

- Detección y transcripción de idiomas multilingües

Cómo funciona

Speech-to-Text tiene tres métodos principales para realizar el reconocimiento de voz: síncrono, asíncrono y de transmisión. Cada método devuelve resultados de texto en función de si se necesita la transcripción durante el procesamiento posterior, periódicamente o en tiempo real. En pocas palabras, ingresarás datos de audio y, luego, recibirás una respuesta basada en texto.

Más información para agregar Speech‑to‑Text a tus apps

Demostración

Prueba la API de Speech-to-Text

Crea rápidamente una transcripción de audio desde la carga de un archivo o hablando directo en un micrófono.

Usos comunes

Transcribe audio

Crea una transcripción de audio

Aprende a usar la API de Speech‐to‐Text desde la consola de Cloud creando una transcripción de audio en unos pocos pasos. También puedes transcribir audio en transmisión, corto y largo.

Vista previa de la carga de datos de Speech-to-Text

Instructivos, guías de inicio rápido y labs

Crea una transcripción de audio

Aprende a usar la API de Speech‐to‐Text desde la consola de Cloud creando una transcripción de audio en unos pocos pasos. También puedes transcribir audio en transmisión, corto y largo.

Vista previa de la carga de datos de Speech-to-Text

Subtitula videos con IA

Usa IA para crear subtítulos para videos

Transcribe tu audio y video para incluir subtítulos. Agrega subtítulos al contenido existente o en tiempo real al contenido de transmisión. Chirp 3: Transcripción es ideal para indexar y subtitular contenido de video o de varios interlocutores, y usa una tecnología de aprendizaje automático similar a la de YouTube para los subtítulos de videos.

En este instructivo, se muestra cómo usar los servicios de IA de Google Cloud: la API de Speech-to-Text y la API de TranslationLINK para agregar subtítulos a videos y proporcionar subtítulos localizados en otros idiomas.

Instructivos, guías de inicio rápido y labs

Usa IA para crear subtítulos para videos

Transcribe tu audio y video para incluir subtítulos. Agrega subtítulos al contenido existente o en tiempo real al contenido de transmisión. Chirp 3: Transcripción es ideal para indexar y subtitular contenido de video o de varios interlocutores, y usa una tecnología de aprendizaje automático similar a la de YouTube para los subtítulos de videos.

En este instructivo, se muestra cómo usar los servicios de IA de Google Cloud: la API de Speech-to-Text y la API de TranslationLINK para agregar subtítulos a videos y proporcionar subtítulos localizados en otros idiomas.

Agrega Speech-to-Text a las apps

Cómo agregar Speech-to-Text a las apps

Descubre cómo puedes habilitar Speech-to-Text con rapidez y facilidad en tu aplicación con Google Cloud. En este video, se explica cómo agregar IA a tu aplicación sin tener mucha experiencia en modelos de aprendizaje automático. Con la API de Speech-to-Text previamente entrenada, habilitarás la IA para tu aplicación con rapidez y facilidad.

Transcripciones avanzadas con la tecnología de IA de Google y la IU de la API

Agregar control por voz a las aplicaciones

Instructivos, guías de inicio rápido y labs

Cómo agregar Speech-to-Text a las apps

Descubre cómo puedes habilitar Speech-to-Text con rapidez y facilidad en tu aplicación con Google Cloud. En este video, se explica cómo agregar IA a tu aplicación sin tener mucha experiencia en modelos de aprendizaje automático. Con la API de Speech-to-Text previamente entrenada, habilitarás la IA para tu aplicación con rapidez y facilidad.

Agregar control por voz a las aplicaciones

Traduce audio a texto

Lenguaje, voz, texto y traducción con las APIs de Google Cloud

En este curso, usarás la API de Speech-to-Text API para transcribir un archivo de audio en un archivo de texto, traducirás con la API de Google Cloud Translation y crearás voces sintéticas con IA de Natural Language.

Instructivos, guías de inicio rápido y labs

Lenguaje, voz, texto y traducción con las APIs de Google Cloud

En este curso, usarás la API de Speech-to-Text API para transcribir un archivo de audio en un archivo de texto, traducirás con la API de Google Cloud Translation y crearás voces sintéticas con IA de Natural Language.

Precios

Cómo funcionan los precios de Speech‐to‐Text	Los precios de Speech-to-Text se basan en la versión de la API, los canales, los métodos de lote y cualquier costo adicional de servicio de Google Cloud, como el almacenamiento.
Versión de API	Servicio y capacidad	Precios
API de Speech-to-Text V2	La versión 2 ofrece residencia de datos para implementaciones multirregionales y de una sola región de Chirp 3. la versión 2 incluye registros de auditoría y asistencia para claves de encriptación administradas por el cliente.	$0.016 por min

Cómo funcionan los precios de Speech‐to‐Text

Los precios de Speech-to-Text se basan en la versión de la API, los canales, los métodos de lote y cualquier costo adicional de servicio de Google Cloud, como el almacenamiento.

Versión de API

Servicio y capacidad

Precios

API de Speech-to-Text V2

La versión 2 ofrece residencia de datos para implementaciones multirregionales y de una sola región de Chirp 3. la versión 2 incluye registros de auditoría y asistencia para claves de encriptación administradas por el cliente.

$0.016

por min

Consulta los detalles de precios de Speech-to-Text.

Cómo funcionan los precios de Speech‐to‐Text

Los precios de Speech-to-Text se basan en la versión de la API, los canales, los métodos de lote y cualquier costo adicional de servicio de Google Cloud, como el almacenamiento.

API de Speech-to-Text V2

Servicio y capacidad

La versión 2 ofrece residencia de datos para implementaciones multirregionales y de una sola región de Chirp 3. la versión 2 incluye registros de auditoría y asistencia para claves de encriptación administradas por el cliente.

Precios

$0.016

por min

Consulta los detalles de precios de Speech-to-Text.

Calculadora de precios

Estima tus costos mensuales de Speech‐to‐Text, incluidos los precios y las tarifas específicos de una región.

Presupuesto personalizado

Comunícate con nuestro equipo de Ventas y obtén una cotización personalizada para tu organización.

Speech‑to‑Text

Convierte voz en texto con la IA de Google

Aspectos destacados del producto

IA de voz avanzada

Compatibilidad con más de 85 idiomas y variantes

Reconocimiento de voz en vivo

Reconocimiento y transcripción de voz potenciados por IA

Cumplimiento de normativas y seguridad listo para usar

Adaptación de voz

Speech-to-Text On-Prem

Reconocimiento de varios canales

Resistencia al ruido

Modelos específicos del dominio

Filtrado de contenido

Evaluación de la transcripción

Puntuación automática (beta)

Identificación de interlocutores

Prueba la API de Speech-to-Text

Transcribe audio

Crea una transcripción de audio

Instructivos, guías de inicio rápido y labs

Crea una transcripción de audio

Subtitula videos con IA

Usa IA para crear subtítulos para videos

Instructivos, guías de inicio rápido y labs

Usa IA para crear subtítulos para videos

Agrega Speech-to-Text a las apps

Cómo agregar Speech-to-Text a las apps

Instructivos, guías de inicio rápido y labs

Cómo agregar Speech-to-Text a las apps

Traduce audio a texto

Lenguaje, voz, texto y traducción con las APIs de Google Cloud

Instructivos, guías de inicio rápido y labs

Lenguaje, voz, texto y traducción con las APIs de Google Cloud

Calculadora de precios

Presupuesto personalizado

Comienza tu prueba de concepto

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para probar Speech-to-Text y otros productos de Google Cloud.

¿Tienes un proyecto grande?

Speech-to-Text On-Prem

Conceptos básicos de Speech-to-Text

Muestras de código de Speech‐to‐Text