Convierte archivos audio en transcripciones de texto e integra el reconocimiento de voz en aplicaciones con API fáciles de usar.
Los nuevos clientes también reciben hasta 300 USD en crédito gratis para probar Speech‐to‐Text y otros productos de Google Cloud.
Características
Speech-to-Text puede utilizar Chirp, el modelo básico de Google Cloud para la voz entrenado con millones de horas de datos de audio y miles de millones de frases de texto. Esto contrasta con las técnicas tradicionales de reconocimiento de voz, que se centran en grandes cantidades de datos supervisados específicos de cada idioma. Estas técnicas facilitan el reconocimiento y la transcripción para los usuarios cuando se hablan más idiomas y acentos.
Desarrolla una base de usuarios global y permite la compatibilidad con un amplio abanico de idiomas. Transcribe datos de audio cortos, largos e incluso en streaming. Speech-to-Text también ofrece a los usuarios traducciones y un reconocimiento más precisos y de alcance internacional con Chirp, la nueva generación de modelos de voz universales. Chirp se creó mediante entrenamiento autosupervisado en millones de horas de audio y 28.000 millones de frases de texto en más de 100 idiomas.
Elige entre una selección de modelos entrenados para recibir controles por voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Personaliza, experimenta, crea y gestiona fácilmente con recursos personalizados en la interfaz de usuario de Speech-to-Text.
La versión 2 de la API Speech-to-Text ofrece a los clientes corporativos y empresariales requisitos adicionales normativos y de seguridad desde el primer momento. La residencia de datos permite invocar modelos de transcripción a través de un servicio totalmente regionalizado que aprovecha las regiones de Google Cloud, como Singapur y Bélgica. La función de reconocimiento de recursos elimina la necesidad de contar con cuentas de servicio dedicadas para la autenticación y la autorización. En la consola de Google Cloud puedes acceder fácilmente a los registros para generar y transcribir recursos. La versión 2 de la API Speech-to-Text ofrece un cifrado de nivel empresarial con claves de cifrado gestionadas por el cliente para todos los recursos, así como transcripción en lotes.
Speech-to-Text utiliza la adaptación de modelos para mejorar la precisión de las palabras utilizadas con frecuencia, ampliar el vocabulario disponible para transcribir y mejorar la transcripción de audio ruidoso. La adaptación de modelos permite a los usuarios personalizar Speech-to-Text para reconocer palabras o frases concretas con más frecuencia que otras opciones que, de otro modo, se habrían sugerido. Por ejemplo, puedes ajustar Speech-to-Text para que transcriba con más frecuencia "cuando" en lugar de "cuanto".
Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage).
Utiliza sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.
Disfruta de un control total sobre tu infraestructura y sobre datos de discurso oral protegidos a la vez que aprovechas la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar.
Speech-to-Text puede distinguir entre un canal y otro en las situaciones donde intervengan varios canales (por ejemplo, en una videoconferencia) y anotar las transcripciones para mantener el orden de aparición.
Speech-to-Text puede procesar archivos de audio de multitud de entornos ruidosos sin necesidad de aplicar ninguna reducción adicional del ruido.
Elige entre una selección de modelos entrenados para recibir control por voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para procesar los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas a una frecuencia de muestreo de 8 kHz).
El filtro de palabras malsonantes te ayuda a detectar el contenido que no sea adecuado o profesional en los datos de audio y a descartar las palabras inapropiadas en los resultados de texto.
Sube datos de tu voz y transcribe mensajes sin necesidad de usar código. Evalúa la calidad iterando la configuración.
Speech-to-Text puntúa las transcripciones con precisión, ya sea mediante comas, signos de interrogación y puntos.
La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién ha dicho qué.
Cómo funciona
Speech-to-Text cuenta con tres métodos principales para realizar el reconocimiento de voz: síncrono, asíncrono y en streaming. Cada método devuelve resultados de texto en función de si es necesario transcribir después de procesarlo, de forma periódica o en tiempo real. Básicamente, cuando introduces datos de audio, recibes una respuesta de texto.
Demo
Crea rápidamente transcripciones de audio a partir de un archivo subido o habla directamente a un micrófono.
Usos habituales
Crea una transcripción de audio
Aprende a usar la API Speech-to-Text desde la consola de Cloud creando una transcripción de audio en solo unos pasos. También puedes transcribir audios cortos, largos y en streaming.
Crea una transcripción de audio
Aprende a usar la API Speech-to-Text desde la consola de Cloud creando una transcripción de audio en solo unos pasos. También puedes transcribir audios cortos, largos y en streaming.
Cómo añadir Speech-to-Text a las aplicaciones
Descubre cómo habilitar Speech-to-Text en tu aplicación de forma rápida y sencilla con Google Cloud. En este vídeo se explica cómo añadir IA a una aplicación sin una amplia experiencia en modelos de aprendizaje automático. Con la API Speech-to-Text preentrenada, podrás habilitar la IA en tu aplicación de forma rápida y sencilla.
Cómo añadir Speech-to-Text a las aplicaciones
Descubre cómo habilitar Speech-to-Text en tu aplicación de forma rápida y sencilla con Google Cloud. En este vídeo se explica cómo añadir IA a una aplicación sin una amplia experiencia en modelos de aprendizaje automático. Con la API Speech-to-Text preentrenada, podrás habilitar la IA en tu aplicación de forma rápida y sencilla.
Idioma, voz, texto y traducción con las APIs de Google Cloud
En este curso, usarás la API Speech-to-Text para transcribir un archivo de audio en un archivo de texto, traducir con la API Google Cloud Translation y crear voces sintéticas con Natural Language. IA.
Idioma, voz, texto y traducción con las APIs de Google Cloud
En este curso, usarás la API Speech-to-Text para transcribir un archivo de audio en un archivo de texto, traducir con la API Google Cloud Translation y crear voces sintéticas con Natural Language. IA.
Precios
Cómo funcionan los precios de Speech-to-Text | Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento. | |
---|---|---|
Versión de la API | Servicio y capacidad | Precios |
Versión 1 de la API Speech-to-Text | La versión 1 solo ofrece residencia de datos para varias regiones. Los modelos pueden ser cortos, largos, de llamada telefónica y de vídeo. La versión 1 no incluye el registro de auditoría.Los nuevos clientes reciben 300 USD en crédito gratis y 60 minutos al mes para transcribir y analizar audio, sin que se les descuente de su crédito. | 0,024 USD por minuto |
Versión 2 de la API Speech-to-Text | La versión 2 ofrece residencia de datos para varias regiones y para una sola región. Los modelos pueden ser cortos, largos, de llamada telefónica, de vídeo y de Chirp. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente. | 0,016 USD por minuto |
Consulta la información de precios de Speech-to-Text.
Cómo funcionan los precios de Speech-to-Text
Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento.
Versión 1 de la API Speech-to-Text
La versión 1 solo ofrece residencia de datos para varias regiones. Los modelos pueden ser cortos, largos, de llamada telefónica y de vídeo. La versión 1 no incluye el registro de auditoría.Los nuevos clientes reciben 300 USD en crédito gratis y 60 minutos al mes para transcribir y analizar audio, sin que se les descuente de su crédito.
0,024 USD
por minuto
Versión 2 de la API Speech-to-Text
La versión 2 ofrece residencia de datos para varias regiones y para una sola región. Los modelos pueden ser cortos, largos, de llamada telefónica, de vídeo y de Chirp. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente.
0,016 USD
por minuto
Consulta la información de precios de Speech-to-Text.