Convierte audio en transcripciones de texto y, además, integra el reconocimiento de voz en aplicaciones con APIs fáciles de usar.
Obtén hasta 60 minutos por mes para transcribir y analizar audio gratis.* Los clientes nuevos también obtienen hasta $300 en créditos gratuitos para probar Speech-to-Text y otros productos de Google Cloud.
* Solo se aplica al procesamiento de audio con la API de Speech-to-Text V1.
Funciones
Speech-to-Text puede usar Chirp, el modelo de base de Google Cloud para la voz entrenado con millones de horas de datos de audio y miles de millones de oraciones de texto.Esto contrasta con las técnicas tradicionales de reconocimiento de voz que se enfocan en grandes cantidades de datos supervisados específicos de un idioma. Estas técnicas permiten a los usuarios mejorar el reconocimiento y la transcripción de los idiomas y acentos más hablados.
Crea una base de usuarios global con amplia compatibilidad lingüística. Transcribe datos de audio cortos, largos o incluso transmisiones. Speech-to-Text también ofrece a los usuarios traducción y reconocimiento más precisos que abarquen todo el mundo con Chirp, la nueva generación de modelos de voz universales. Chirp se creó con entrenamiento autosupervisado en millones de horas de audio y 28,000 millones de oraciones de textos en más de 100 idiomas.
Elige entre varios modelos entrenados y seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria para satisfacer los requisitos de calidad específicos del dominio.Personaliza los recursos personalizados, experimenta con ellos, créalos y adminístralos fácilmente con la IU de Speech-to-Text.
La versión 2 de la API de Speech-to-Text ofrece a los clientes empresariales requisitos regulatorios y de seguridad adicionales desde el primer momento. La residencia de datos permite invocar modelos de transcripción a través de un servicio completamente regionalizado que aprovecha las regiones de Google Cloud, como Singapur y Bélgica. El ingenio de Recognizer elimina la necesidad de tener cuentas de servicio dedicadas para la autenticación y autorización. Los registros para la generación y transcripción de recursos están disponibles con facilidad en la consola de Google Cloud. Además, la versión 2 de la API de Speech-to-Text ofrece encriptación de nivel empresarial con claves de encriptación administradas por el cliente para todos los recursos, así como transcripción por lotes.
Speech-to-Text usa la adaptación de modelos para mejorar la exactitud de las palabras de uso frecuente, expandir el vocabulario disponible para la transcripción y mejorar la transcripción de audio ruidoso. La adaptación de modelos permite a los usuarios personalizar Speech-to-Text para reconocer palabras o frases específicas con mayor frecuencia que otras opciones que, de otro modo, se podrían sugerir. Por ejemplo, puedes personalizar Speech-to-Text para que transcriba “clima” en lugar de “si”.
Recibe resultados de reconocimiento de voz en tiempo real a medida que la API procesa la entrada de audio transmitida desde el micrófono de tu aplicación o enviada desde un archivo de audio pregrabado (intercalada o a través de Cloud Storage).
Personaliza el reconocimiento de voz para transcribir términos específicos del dominio y palabras poco frecuentes con sugerencias, y mejora la precisión de la transcripción de palabras o frases específicas. Usa clases para convertir de forma automática los números pronunciados en direcciones, años, monedas y mucho más.
Consigue un control total de tu infraestructura y tus datos de voz protegidos, y aprovecha la tecnología de reconocimiento de voz de Google de forma local, directamente en tus centros de datos privados. Comunícate con Ventas para comenzar.
Speech‑to‑Text puede reconocer canales individuales en situaciones multicanal (por ejemplo, videoconferencias) y realizar anotaciones en las transcripciones para preservar el orden.
Speech‑to‑Text puede procesar el audio con ruido proveniente de muchos entornos sin necesidad de usar una cancelación de ruido adicional.
Elige entre varios modelos entrenados y seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria para satisfacer los requisitos de calidad específicos del dominio. Por ejemplo, nuestro modelo mejorado para llamadas telefónicas está ajustado para el audio que se origina a través de la telefonía, como las llamadas grabadas con una tasa de muestreo de 8 kHz.
El filtro de lenguaje obsceno te ayuda a detectar el contenido inadecuado o poco profesional en tus datos de audio y a filtrar las palabras obscenas en los resultados de texto.
Sube tus propios datos de voz y transcríbelos sin código. Evalúa la calidad a través de iteraciones en la configuración.
Speech-to-Text aplica la puntuación precisa a las transcripciones, por ejemplo, agrega comas, signos de interrogación y puntos.
Recibe predicciones automáticas sobre cuál de los interlocutores pronunció cada enunciado de una conversación para saber quién dijo qué.
Cómo funciona
Speech-to-Text tiene tres métodos principales para realizar el reconocimiento de voz: síncrono, asíncrono y de transmisión. Cada método devuelve resultados de texto en función de si se necesita la transcripción durante el procesamiento posterior, periódicamente o en tiempo real. En pocas palabras, ingresarás datos de audio y, luego, recibirás una respuesta basada en texto.
Demostración
Crea rápidamente una transcripción de audio desde la carga de un archivo o hablando directo en un micrófono.
Usos comunes
Crea una transcripción de audio
Aprende a usar la API de Speech‐to‐Text desde la consola de Cloud creando una transcripción de audio en unos pocos pasos. También puedes transcribir audio corto, largo y de transmisión.
Crea una transcripción de audio
Aprende a usar la API de Speech‐to‐Text desde la consola de Cloud creando una transcripción de audio en unos pocos pasos. También puedes transcribir audio corto, largo y de transmisión.
Cómo agregar Speech-to-Text a las apps
Descubre cómo puedes habilitar Speech-to-Text con rapidez y facilidad en tu aplicación con Google Cloud. En este video, se explica cómo agregar IA a tu aplicación sin tener mucha experiencia en modelos de aprendizaje automático. Con la API de Speech-to-Text previamente entrenada, habilitarás la IA para tu aplicación con rapidez y facilidad.
Cómo agregar Speech-to-Text a las apps
Descubre cómo puedes habilitar Speech-to-Text con rapidez y facilidad en tu aplicación con Google Cloud. En este video, se explica cómo agregar IA a tu aplicación sin tener mucha experiencia en modelos de aprendizaje automático. Con la API de Speech-to-Text previamente entrenada, habilitarás la IA para tu aplicación con rapidez y facilidad.
Lenguaje, voz, texto y traducción con las APIs de Google Cloud
En este curso, usarás la API de Speech-to-Text API para transcribir un archivo de audio en un archivo de texto, traducirás con la API de Google Cloud Translation y crearás voces sintéticas con IA de Natural Language.
Lenguaje, voz, texto y traducción con las APIs de Google Cloud
En este curso, usarás la API de Speech-to-Text API para transcribir un archivo de audio en un archivo de texto, traducirás con la API de Google Cloud Translation y crearás voces sintéticas con IA de Natural Language.
Precios
Cómo funcionan los precios de Speech‐to‐Text | Los precios de Speech-to-Text se basan en la versión de la API, los canales, los métodos de lote y cualquier costo adicional de servicio de Google Cloud, como el almacenamiento. | |
---|---|---|
Versión de API | Servicio y capacidad | Precios |
API de Speech-to-Text V1 | La versión 1 ofrece residencia de datos solo para multirregionales. Los modelos pueden ser audios cortos, largos, de llamada telefónica y de video. La versión 1 no incluye el registro de auditoría.Los clientes nuevos obtienen $300 en créditos gratuitos y 60 minutos para transcribir y analizar audio gratis por mes, que no se descuentan de tus créditos. | $0.024 por min |
API de Speech-to-Text V2 | La versión 2 ofrece residencia de datos para varias regiones y una sola. Los modelos incluyen audios cortos, largos, de telefonía, de video y Chirp. la versión 2 incluye registros de auditoría y asistencia para claves de encriptación administradas por el cliente. | $0.016 por min |
Consulta los detalles de precios de Speech-to-Text.
Cómo funcionan los precios de Speech‐to‐Text
Los precios de Speech-to-Text se basan en la versión de la API, los canales, los métodos de lote y cualquier costo adicional de servicio de Google Cloud, como el almacenamiento.
API de Speech-to-Text V1
La versión 1 ofrece residencia de datos solo para multirregionales. Los modelos pueden ser audios cortos, largos, de llamada telefónica y de video. La versión 1 no incluye el registro de auditoría.Los clientes nuevos obtienen $300 en créditos gratuitos y 60 minutos para transcribir y analizar audio gratis por mes, que no se descuentan de tus créditos.
$0.024
por min
API de Speech-to-Text V2
La versión 2 ofrece residencia de datos para varias regiones y una sola. Los modelos incluyen audios cortos, largos, de telefonía, de video y Chirp. la versión 2 incluye registros de auditoría y asistencia para claves de encriptación administradas por el cliente.
$0.016
por min
Consulta los detalles de precios de Speech-to-Text.