Speech‑to‑Text

Convierte voz en texto con la IA de Google

Convierte archivos audio en transcripciones de texto e integra el reconocimiento de voz en aplicaciones con API fáciles de usar.

Los nuevos clientes reciben 300 USD en crédito gratis y 60 minutos al mes para transcribir y analizar audio, sin que se les descuente de su crédito.

*Solo se aplica al procesamiento de audio con la versión 1 de la API Speech-to-Text.

Características

IA de voz avanzada

Speech-to-Text puede utilizar Chirp, el modelo básico de Google Cloud para la voz entrenado con millones de horas de datos de audio y miles de millones de frases de texto. Esto contrasta con las técnicas tradicionales de reconocimiento de voz, que se centran en grandes cantidades de datos supervisados específicos de cada idioma. Estas técnicas facilitan el reconocimiento y la transcripción para los usuarios cuando se hablan más idiomas y acentos.

Compatibilidad con 125 idiomas y variantes

Desarrolla una base de usuarios global y permite la compatibilidad con un amplio abanico de idiomas. Transcribe datos de audio cortos, largos e incluso en streaming. Speech-to-Text también ofrece a los usuarios traducciones y un reconocimiento más precisos y de alcance internacional con Chirp, la nueva generación de modelos de voz universales. Chirp se creó mediante entrenamiento autosupervisado en millones de horas de audio y 28.000 millones de frases de texto en más de 100 idiomas.

Modelos entrenados previamente o personalizables para la transcripción

Elige entre una selección de modelos entrenados para recibir controles por voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Personaliza, experimenta, crea y gestiona fácilmente con recursos personalizados en la interfaz de usuario de Speech-to-Text.

Cumplimiento de normativas y seguridad desde el primer momento

La versión 2 de la API Speech-to-Text ofrece a los clientes corporativos y empresariales requisitos adicionales normativos y de seguridad desde el primer momento. La residencia de datos permite invocar modelos de transcripción a través de un servicio totalmente regionalizado que aprovecha las regiones de Google Cloud, como Singapur y Bélgica. La función de reconocimiento de recursos elimina la necesidad de contar con cuentas de servicio dedicadas para la autenticación y la autorización. En la consola de Google Cloud puedes acceder fácilmente a los registros para generar y transcribir recursos. La versión 2 de la API Speech-to-Text ofrece un cifrado de nivel empresarial con claves de cifrado gestionadas por el cliente para todos los recursos, así como transcripción en lotes.


Reconocimiento y transcripción de voz basados en IA

Speech-to-Text utiliza la adaptación de modelos para mejorar la precisión de las palabras utilizadas con frecuencia, ampliar el vocabulario disponible para transcribir y mejorar la transcripción de audio ruidoso. La adaptación de modelos permite a los usuarios personalizar Speech-to-Text para reconocer palabras o frases concretas con más frecuencia que otras opciones que, de otro modo, se habrían sugerido. Por ejemplo, puedes ajustar Speech-to-Text para que transcriba con más frecuencia "cuando" en lugar de "cuanto".

Reconocimiento de voz en streaming

Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage).


Adaptación de voz

Utiliza sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.

Speech‑to‑Text On‑Prem

Disfruta de un control total sobre tu infraestructura y sobre datos de discurso oral protegidos a la vez que aprovechas la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar.

Reconocimiento multicanal

Speech-to-Text puede distinguir entre un canal y otro en las situaciones donde intervengan varios canales (por ejemplo, en una videoconferencia) y anotar las transcripciones para mantener el orden de aparición.

Tratamiento del ruido

Speech-to-Text puede procesar archivos de audio de multitud de entornos ruidosos sin necesidad de aplicar ninguna reducción adicional del ruido.

Modelos para dominios específicos

Elige entre una selección de modelos entrenados para recibir control por voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para procesar los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas a una frecuencia de muestreo de 8 kHz).

Filtrado de contenido

El filtro de palabras malsonantes te ayuda a detectar el contenido que no sea adecuado o profesional en los datos de audio y a descartar las palabras inapropiadas en los resultados de texto.

Evaluación de las transcripciones

Sube datos de tu voz y transcribe mensajes sin necesidad de usar código. Evalúa la calidad iterando la configuración.

Puntuación automática (beta)

Speech-to-Text puntúa las transcripciones con precisión, ya sea mediante comas, signos de interrogación y puntos.


Diarización de interlocutores

La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién ha dicho qué.

Cómo funciona

Speech-to-Text cuenta con tres métodos principales para realizar el reconocimiento de voz: síncrono, asíncrono y en streaming. Cada método devuelve resultados de texto en función de si es necesario transcribir después de procesarlo, de forma periódica o en tiempo real. Básicamente, cuando introduces datos de audio, recibes una respuesta de texto.

Añade transcripción de voz a una aplicación
Consulta cómo añadir Speech-to-Text a tus aplicaciones

Demo

Prueba la API Speech-to-Text

Crea rápidamente transcripciones de audio a partir de un archivo subido o habla directamente a un micrófono.

Usos habituales

Transcribir audio

Crea una transcripción de audio

Aprende a usar la API Speech-to-Text desde la consola de Cloud creando una transcripción de audio en solo unos pasos. También puedes transcribir audios cortos, largos y en streaming.

Empezar a usar Speech-to-Text
Interfaz de transcripción de audio

Crea una transcripción de audio

Aprende a usar la API Speech-to-Text desde la consola de Cloud creando una transcripción de audio en solo unos pasos. También puedes transcribir audios cortos, largos y en streaming.

Empezar a usar Speech-to-Text
Interfaz de transcripción de audio

Subtitula vídeos usando IA

Crea subtítulos para vídeos con IA

Transcribe archivos de audio y vídeo e incluye subtítulos. Añade subtítulos a tu contenido o en tiempo real al contenido en streaming. Nuestro modelo de transcripción de vídeo es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, utiliza una tecnología de aprendizaje automático similar a la que utiliza YouTube para subtitular vídeos. En este tutorial se explica cómo usar las API Speech-to-Text y la API Translation de los servicios de IA de Google Cloud para añadir subtítulos a vídeos y proporcionar subtítulos localizados en otros idiomas.

Ver el tutorial de subtítulos automáticos
Subtítulos de Speech-to-Text

Crea subtítulos para vídeos con IA

Transcribe archivos de audio y vídeo e incluye subtítulos. Añade subtítulos a tu contenido o en tiempo real al contenido en streaming. Nuestro modelo de transcripción de vídeo es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, utiliza una tecnología de aprendizaje automático similar a la que utiliza YouTube para subtitular vídeos. En este tutorial se explica cómo usar las API Speech-to-Text y la API Translation de los servicios de IA de Google Cloud para añadir subtítulos a vídeos y proporcionar subtítulos localizados en otros idiomas.

Ver el tutorial de subtítulos automáticos
Subtítulos de Speech-to-Text

Añade Speech-to-Text a aplicaciones

Cómo añadir Speech-to-Text a las aplicaciones

Descubre cómo habilitar Speech-to-Text en tu aplicación de forma rápida y sencilla con Google Cloud. En este vídeo se explica cómo añadir IA a una aplicación sin una amplia experiencia en modelos de aprendizaje automático. Con la API Speech-to-Text preentrenada, podrás habilitar la IA en tu aplicación de forma rápida y sencilla.

Ver vídeo de ejemplo
Transcripción avanzada con la tecnología de la IA de Google y la interfaz de APIs

Cómo añadir Speech-to-Text a las aplicaciones

Descubre cómo habilitar Speech-to-Text en tu aplicación de forma rápida y sencilla con Google Cloud. En este vídeo se explica cómo añadir IA a una aplicación sin una amplia experiencia en modelos de aprendizaje automático. Con la API Speech-to-Text preentrenada, podrás habilitar la IA en tu aplicación de forma rápida y sencilla.

Ver vídeo de ejemplo
Transcripción avanzada con la tecnología de la IA de Google y la interfaz de APIs

Traduce audio a texto

Idioma, voz, texto y traducción con las APIs de Google Cloud

En este curso, usarás la API Speech-to-Text para transcribir un archivo de audio en un archivo de texto, traducir con la API Google Cloud Translation y crear voces sintéticas con Natural Language. IA.

Empezar curso
Curso de Speech-to-Text

Idioma, voz, texto y traducción con las APIs de Google Cloud

En este curso, usarás la API Speech-to-Text para transcribir un archivo de audio en un archivo de texto, traducir con la API Google Cloud Translation y crear voces sintéticas con Natural Language. IA.

Empezar curso
Curso de Speech-to-Text

Precios

Cómo funcionan los precios de Speech-to-TextLos precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento.
Versión de la APIServicio y capacidadPrecios

Versión 1 de la API Speech-to-Text

La versión 1 solo ofrece residencia de datos para varias regiones. Los modelos pueden ser cortos, largos, de llamada telefónica y de vídeo. La versión 1 no incluye el registro de auditoría.Los nuevos clientes reciben 300 USD en crédito gratis y 60 minutos al mes para transcribir y analizar audio, sin que se les descuente de su crédito.

0,024 USD

por minuto

Versión 2 de la API Speech-to-Text


La versión 2 ofrece residencia de datos para varias regiones y para una sola región. Los modelos pueden ser cortos, largos, de llamada telefónica, de vídeo y de Chirp. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente.

0,016 USD

por minuto

Consulta la información de precios de Speech-to-Text.

Cómo funcionan los precios de Speech-to-Text

Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento.

Versión 1 de la API Speech-to-Text

Servicio y capacidad

La versión 1 solo ofrece residencia de datos para varias regiones. Los modelos pueden ser cortos, largos, de llamada telefónica y de vídeo. La versión 1 no incluye el registro de auditoría.Los nuevos clientes reciben 300 USD en crédito gratis y 60 minutos al mes para transcribir y analizar audio, sin que se les descuente de su crédito.

Precios

0,024 USD

por minuto

Versión 2 de la API Speech-to-Text


Servicio y capacidad

La versión 2 ofrece residencia de datos para varias regiones y para una sola región. Los modelos pueden ser cortos, largos, de llamada telefónica, de vídeo y de Chirp. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente.

Precios

0,016 USD

por minuto

Consulta la información de precios de Speech-to-Text.

Calculadora de precios

Calcula tus costes mensuales de Speech-to-Text, incluyendo los precios y las tarifas específicas de cada región.

Presupuesto personalizado

Ponte en contacto con nuestro equipo de ventas para solicitar un presupuesto personalizado para tu organización.

Empieza tu prueba de concepto

Los nuevos clientes reciben 300 USD en crédito gratis

Empieza a transcribir con un tutorial en la consola

Speech‑to‑Text On‑Prem

Aspectos básicos de Speech-to-Text

Códigos de ejemplo de Speech-to-Text

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Consola
  • Ahorra dinero con nuestro enfoque de transparencia sobre los precios
  • El modelo de pago por uso de Google Cloud ofrece ahorros automáticos en función del uso mensual y de las tarifas con descuento para los recursos de prepago. Ponte en contacto con nosotros y solicita un presupuesto.
Google Cloud