Prueba Gemini 1.5 Pro, nuestro modelo multimodal más avanzado en Vertex AI, y descubre lo que puedes compilar con una ventana de contexto de un millón de tokens.

Speech‑to‑Text

Convierte voz en texto con la IA de Google

Convierte audio en transcripciones de texto y, además, integra el reconocimiento de voz en aplicaciones con APIs fáciles de usar.

Obtén hasta 60 minutos por mes para transcribir y analizar audio gratis.* Los clientes nuevos también obtienen hasta $300 en créditos gratuitos para probar Speech-to-Text y otros productos de Google Cloud.

Comenzar a transcribir Comunicarse con Ventas

* Solo se aplica al procesamiento de audio con la API de Speech-to-Text V1.

Funciones

IA de voz avanzada

Speech-to-Text puede usar Chirp, el modelo de base de Google Cloud para la voz entrenado con millones de horas de datos de audio y miles de millones de oraciones de texto.Esto contrasta con las técnicas tradicionales de reconocimiento de voz que se enfocan en grandes cantidades de datos supervisados específicos de un idioma. Estas técnicas permiten a los usuarios mejorar el reconocimiento y la transcripción de los idiomas y acentos más hablados.

Compatibilidad con 125 idiomas y variantes

Crea una base de usuarios global con amplia compatibilidad lingüística. Transcribe datos de audio cortos, largos o incluso transmisiones. Speech-to-Text también ofrece a los usuarios traducción y reconocimiento más precisos que abarquen todo el mundo con Chirp, la nueva generación de modelos de voz universales. Chirp se creó con entrenamiento autosupervisado en millones de horas de audio y 28,000 millones de oraciones de textos en más de 100 idiomas.

Transcribe audio corto, largo o en streaming

Ver la guía

Modelos previamente entrenados o personalizables para la transcripción

Elige entre varios modelos entrenados y seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria para satisfacer los requisitos de calidad específicos del dominio.Personaliza los recursos personalizados, experimenta con ellos, créalos y adminístralos fácilmente con la IU de Speech-to-Text.

Cumplimiento de normativas y seguridad listo para usar

La versión 2 de la API de Speech-to-Text ofrece a los clientes empresariales requisitos regulatorios y de seguridad adicionales desde el primer momento. La residencia de datos permite invocar modelos de transcripción a través de un servicio completamente regionalizado que aprovecha las regiones de Google Cloud, como Singapur y Bélgica. El ingenio de Recognizer elimina la necesidad de tener cuentas de servicio dedicadas para la autenticación y autorización. Los registros para la generación y transcripción de recursos están disponibles con facilidad en la consola de Google Cloud. Además, la versión 2 de la API de Speech-to-Text ofrece encriptación de nivel empresarial con claves de encriptación administradas por el cliente para todos los recursos, así como transcripción por lotes.

Reconocimiento y transcripción de voz potenciados por IA

Speech-to-Text usa la adaptación de modelos para mejorar la exactitud de las palabras de uso frecuente, expandir el vocabulario disponible para la transcripción y mejorar la transcripción de audio ruidoso. La adaptación de modelos permite a los usuarios personalizar Speech-to-Text para reconocer palabras o frases específicas con mayor frecuencia que otras opciones que, de otro modo, se podrían sugerir. Por ejemplo, puedes personalizar Speech-to-Text para que transcriba “clima” en lugar de “si”.

Reconocimiento de voz en vivo

Recibe resultados de reconocimiento de voz en tiempo real a medida que la API procesa la entrada de audio transmitida desde el micrófono de tu aplicación o enviada desde un archivo de audio pregrabado (intercalada o a través de Cloud Storage).

Adaptación de voz

Personaliza el reconocimiento de voz para transcribir términos específicos del dominio y palabras poco frecuentes con sugerencias, y mejora la precisión de la transcripción de palabras o frases específicas. Usa clases para convertir de forma automática los números pronunciados en direcciones, años, monedas y mucho más.

Speech‑to‑Text On‑Prem

Consigue un control total de tu infraestructura y tus datos de voz protegidos, y aprovecha la tecnología de reconocimiento de voz de Google de forma local, directamente en tus centros de datos privados. Comunícate con Ventas para comenzar.

Reconocimiento de varios canales

Speech‑to‑Text puede reconocer canales individuales en situaciones multicanal (por ejemplo, videoconferencias) y realizar anotaciones en las transcripciones para preservar el orden.

Resistencia al ruido

Speech‑to‑Text puede procesar el audio con ruido proveniente de muchos entornos sin necesidad de usar una cancelación de ruido adicional.

Modelos específicos del dominio

Elige entre varios modelos entrenados y seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria para satisfacer los requisitos de calidad específicos del dominio. Por ejemplo, nuestro modelo mejorado para llamadas telefónicas está ajustado para el audio que se origina a través de la telefonía, como las llamadas grabadas con una tasa de muestreo de 8 kHz.

Filtrado de contenido

El filtro de lenguaje obsceno te ayuda a detectar el contenido inadecuado o poco profesional en tus datos de audio y a filtrar las palabras obscenas en los resultados de texto.

Evaluación de la transcripción

Sube tus propios datos de voz y transcríbelos sin código. Evalúa la calidad a través de iteraciones en la configuración.

Puntuación automática (beta)

Speech-to-Text aplica la puntuación precisa a las transcripciones, por ejemplo, agrega comas, signos de interrogación y puntos.

Identificación de interlocutores

Recibe predicciones automáticas sobre cuál de los interlocutores pronunció cada enunciado de una conversación para saber quién dijo qué.

Cómo funciona

Speech-to-Text tiene tres métodos principales para realizar el reconocimiento de voz: síncrono, asíncrono y de transmisión. Cada método devuelve resultados de texto en función de si se necesita la transcripción durante el procesamiento posterior, periódicamente o en tiempo real. En pocas palabras, ingresarás datos de audio y, luego, recibirás una respuesta basada en texto.

Ver la documentación

Más información para agregar Speech‑to‑Text a tus apps

Demostración

Prueba la API de Speech-to-Text

Crea rápidamente una transcripción de audio desde la carga de un archivo o hablando directo en un micrófono.

Usos comunes

Transcribe audio

Crea una transcripción de audio

Aprende a usar la API de Speech‐to‐Text desde la consola de Cloud creando una transcripción de audio en unos pocos pasos. También puedes transcribir audio corto, largo y de transmisión.

Comenzar a usar Speech-to-Text

Instructivos, guías de inicio rápido y labs

Crea una transcripción de audio

Aprende a usar la API de Speech‐to‐Text desde la consola de Cloud creando una transcripción de audio en unos pocos pasos. También puedes transcribir audio corto, largo y de transmisión.

Comenzar a usar Speech-to-Text

Subtitula videos con IA

Usa IA para crear subtítulos para videos

Transcribe tu audio y video para incluir subtítulos. Agrega subtítulos al contenido existente o en tiempo real al contenido de transmisión. Nuestro modelo de transcripción de video es ideal para indexar y subtitular contenido de video o de varios interlocutores, y usa una tecnología de aprendizaje automático similar a la de YouTube para los subtítulos de videos. En este instructivo, se muestra cómo usar los servicios de IA de Google Cloud: la API de Speech-to-Text y la API de Translation para agregar subtítulos a videos y proporcionar subtítulos localizados en otros idiomas.

Mirar el instructivo de subtítulos automáticos

Instructivos, guías de inicio rápido y labs

Usa IA para crear subtítulos para videos

Transcribe tu audio y video para incluir subtítulos. Agrega subtítulos al contenido existente o en tiempo real al contenido de transmisión. Nuestro modelo de transcripción de video es ideal para indexar y subtitular contenido de video o de varios interlocutores, y usa una tecnología de aprendizaje automático similar a la de YouTube para los subtítulos de videos. En este instructivo, se muestra cómo usar los servicios de IA de Google Cloud: la API de Speech-to-Text y la API de Translation para agregar subtítulos a videos y proporcionar subtítulos localizados en otros idiomas.

Mirar el instructivo de subtítulos automáticos

Agrega Speech-to-Text a las apps

Cómo agregar Speech-to-Text a las apps

Descubre cómo puedes habilitar Speech-to-Text con rapidez y facilidad en tu aplicación con Google Cloud. En este video, se explica cómo agregar IA a tu aplicación sin tener mucha experiencia en modelos de aprendizaje automático. Con la API de Speech-to-Text previamente entrenada, habilitarás la IA para tu aplicación con rapidez y facilidad.

Mirar video de ejemplo

Transcripciones avanzadas con la tecnología de IA de Google y la IU de la API

Agregar control por voz a las aplicaciones

Instructivos, guías de inicio rápido y labs

Cómo agregar Speech-to-Text a las apps

Descubre cómo puedes habilitar Speech-to-Text con rapidez y facilidad en tu aplicación con Google Cloud. En este video, se explica cómo agregar IA a tu aplicación sin tener mucha experiencia en modelos de aprendizaje automático. Con la API de Speech-to-Text previamente entrenada, habilitarás la IA para tu aplicación con rapidez y facilidad.

Mirar video de ejemplo

Agregar control por voz a las aplicaciones

Traduce audio a texto

Lenguaje, voz, texto y traducción con las APIs de Google Cloud

En este curso, usarás la API de Speech-to-Text API para transcribir un archivo de audio en un archivo de texto, traducirás con la API de Google Cloud Translation y crearás voces sintéticas con IA de Natural Language.

Comience el curso

Instructivos, guías de inicio rápido y labs

Lenguaje, voz, texto y traducción con las APIs de Google Cloud

En este curso, usarás la API de Speech-to-Text API para transcribir un archivo de audio en un archivo de texto, traducirás con la API de Google Cloud Translation y crearás voces sintéticas con IA de Natural Language.

Comience el curso

Precios

Cómo funcionan los precios de Speech‐to‐Text	Los precios de Speech-to-Text se basan en la versión de la API, los canales, los métodos de lote y cualquier costo adicional de servicio de Google Cloud, como el almacenamiento.
Versión de API	Servicio y capacidad	Precios
API de Speech-to-Text V1	La versión 1 ofrece residencia de datos solo para multirregionales. Los modelos pueden ser audios cortos, largos, de llamada telefónica y de video. La versión 1 no incluye el registro de auditoría.Los clientes nuevos obtienen $300 en créditos gratuitos y 60 minutos para transcribir y analizar audio gratis por mes, que no se descuentan de tus créditos.	$0.024 por min
API de Speech-to-Text V2	La versión 2 ofrece residencia de datos para varias regiones y una sola. Los modelos incluyen audios cortos, largos, de telefonía, de video y Chirp. la versión 2 incluye registros de auditoría y asistencia para claves de encriptación administradas por el cliente.	$0.016 por min

Cómo funcionan los precios de Speech‐to‐Text

Los precios de Speech-to-Text se basan en la versión de la API, los canales, los métodos de lote y cualquier costo adicional de servicio de Google Cloud, como el almacenamiento.

Versión de API

Servicio y capacidad

Precios

API de Speech-to-Text V1

La versión 1 ofrece residencia de datos solo para multirregionales. Los modelos pueden ser audios cortos, largos, de llamada telefónica y de video. La versión 1 no incluye el registro de auditoría.Los clientes nuevos obtienen $300 en créditos gratuitos y 60 minutos para transcribir y analizar audio gratis por mes, que no se descuentan de tus créditos.

$0.024

por min

API de Speech-to-Text V2

La versión 2 ofrece residencia de datos para varias regiones y una sola. Los modelos incluyen audios cortos, largos, de telefonía, de video y Chirp. la versión 2 incluye registros de auditoría y asistencia para claves de encriptación administradas por el cliente.

$0.016

por min

Consulta los detalles de precios de Speech-to-Text.

Cómo funcionan los precios de Speech‐to‐Text

Los precios de Speech-to-Text se basan en la versión de la API, los canales, los métodos de lote y cualquier costo adicional de servicio de Google Cloud, como el almacenamiento.

API de Speech-to-Text V1

Servicio y capacidad

La versión 1 ofrece residencia de datos solo para multirregionales. Los modelos pueden ser audios cortos, largos, de llamada telefónica y de video. La versión 1 no incluye el registro de auditoría.Los clientes nuevos obtienen $300 en créditos gratuitos y 60 minutos para transcribir y analizar audio gratis por mes, que no se descuentan de tus créditos.

Precios

$0.024

por min

API de Speech-to-Text V2

Servicio y capacidad

La versión 2 ofrece residencia de datos para varias regiones y una sola. Los modelos incluyen audios cortos, largos, de telefonía, de video y Chirp. la versión 2 incluye registros de auditoría y asistencia para claves de encriptación administradas por el cliente.

Precios

$0.016

por min

Consulta los detalles de precios de Speech-to-Text.

Calculadora de precios

Estima tus costos mensuales de Speech‐to‐Text, incluidos los precios y las tarifas específicos de una región.

Estimación de costos

Presupuesto personalizado

Comunícate con nuestro equipo de Ventas a fin de obtener una cotización personalizada para tu organización.

Solicitar una cotización

Comienza tu prueba de concepto

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para probar Speech-to-Text y otros productos de Google Cloud.

Comenzar gratis

Speech‑to‑Text

Convierte voz en texto con la IA de Google

Aspectos destacados del producto

IA de voz avanzada

Compatibilidad con 125 idiomas y variantes

Modelos previamente entrenados o personalizables para la transcripción

Cumplimiento de normativas y seguridad listo para usar

Reconocimiento y transcripción de voz potenciados por IA

Reconocimiento de voz en vivo

Adaptación de voz

Speech‑to‑Text On‑Prem

Reconocimiento de varios canales

Resistencia al ruido

Modelos específicos del dominio

Filtrado de contenido

Evaluación de la transcripción

Puntuación automática (beta)

Identificación de interlocutores

Prueba la API de Speech-to-Text

Transcribe audio

Crea una transcripción de audio

Instructivos, guías de inicio rápido y labs

Crea una transcripción de audio

Subtitula videos con IA

Usa IA para crear subtítulos para videos

Instructivos, guías de inicio rápido y labs

Usa IA para crear subtítulos para videos

Agrega Speech-to-Text a las apps

Cómo agregar Speech-to-Text a las apps

Instructivos, guías de inicio rápido y labs

Cómo agregar Speech-to-Text a las apps

Traduce audio a texto

Lenguaje, voz, texto y traducción con las APIs de Google Cloud

Instructivos, guías de inicio rápido y labs

Lenguaje, voz, texto y traducción con las APIs de Google Cloud

Calculadora de precios

Presupuesto personalizado

Comienza tu prueba de concepto

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para probar Speech-to-Text y otros productos de Google Cloud.

¿Tienes un proyecto grande?

Speech‑to‑Text On‑Prem

Conceptos básicos de Speech‑to‑Text

Muestras de código de Speech‐to‐Text