Speech‑to‑Text
Convierte voz en texto con precisión usando una API con lo mejor de la investigación y la tecnología de IA de Google.
Los clientes nuevos obtienen $300 en créditos gratuitos para gastar en Speech‑to‑Text. Todos los clientes obtienen 60 minutos para transcribir y analizar audio gratis por mes, que no se descuentan de sus créditos.
-
Transcribe tu contenido con subtítulos precisos.
-
Habilita la potencia de la voz para crear mejores experiencias de usuario.
-
Mejora tu servicio con estadísticas de las interacciones de los clientes.
-
Comienza rápido con nuestro instructivo en la consola.
Beneficios
Precisión de vanguardia
Aplica los algoritmos más avanzados de red neuronal de aprendizaje profundo de Google para el reconocimiento de voz automático (ASR).
Personalización sencilla de modelos
Experimenta, crea y administra recursos personalizados con la IU de Speech‑to‑Text.
Implementación de modelos flexible
Implementa ASR cuando lo necesites, ya sea en la nube con la API o localmente con Speech‑to‑Text On-Prem.
Demostración
Usa Speech‑to‑Text
Al igual que en esta demostración, puedes incorporar fácilmente la transcripción de voz a tus aplicaciones con la API de Speech‑to‑Text.
Funciones clave
Funciones clave
Adaptación de voz
Proporciona sugerencias para aumentar la exactitud de la transcripción de palabras o frases inusuales o específicas del dominio. Usa clases para convertir automáticamente números hablados en direcciones, años, monedas y más.
Modelos específicos del dominio
Elige entre varios modelos entrenados y seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria para satisfacer los requisitos de calidad específicos del dominio.
Comparaciones de calidad fáciles de obtener
Experimenta en tu audio de voz con nuestra interfaz de usuario fácil de utilizar. Prueba diferentes parámetros de configuración para optimizar la calidad y la exactitud.
Voz integrada en el dispositivo
Ejecuta los algoritmos de voz de Google Cloud de forma local en cualquier dispositivo, independientemente de la conectividad a Internet. Promételes a los usuarios que sus datos de voz nunca saldrán de sus dispositivos.
Modelo de base para Speech-to-Text
Crea aplicaciones compatibles con funciones de voz para públicos globales con modelos de voz que usan la tecnología de Chirp, el modelo de voz base de Google Cloud que se entrenó con millones de horas de datos de audio y miles de millones de oraciones de texto.
Clientes
Aprende de los clientes que crean soluciones de audio y voz con Speech‑to‑Text
Novedades
Novedades
Regístrate para recibir los boletines informativos de Google Cloud con información sobre actualizaciones de productos, eventos, ofertas especiales y mucho más.
Documentación
Instructivos y recursos para comenzar
Instructivos en la consola de Speech‑to‑Text
Más información para agregar Speech-to-Text a tus apps existentes. Comienza rápidamente con nuestro instructivo en la consola.
Conceptos básicos de Speech‑to‑Text
Conoce los conceptos básicos de Speech‑to‑Text.
Guía de inicio rápido: Usa la IU de Speech‑to‑Text
Aprende a configurar tu proyecto y tu autorización, crea y perfecciona una transcripción, y descubre cómo usar esta configuración en la consola.
Guía de inicio rápido: Usa la herramienta de gcloud
Envía una solicitud de transcripción de audio a Speech‑to‑Text mediante la herramienta de gcloud desde la línea de comandos.
Prácticas recomendadas
Revisa las prácticas recomendadas para transcribir audio con Speech‑to‑Text.
ML onramp
Explora instructivos, codelabs y mucho más de Speech‑to‑Text.
Idiomas admitidos
Conoce qué idiomas están disponibles para Speech‑to‑Text, además de las funciones y los modelos de reconocimiento disponibles para cada uno.
Speech‑to‑Text On-Prem
Obtén más información sobre Speech‑to‑Text On-Prem, que permite una integración sencilla de la tecnología de reconocimiento de voz de Google en tus soluciones locales.
Casos de uso
Casos de uso
Agrega IVR (Respuesta de voz interactiva) y conversaciones con agentes a tus centros de llamadas para potenciar tu sistema de atención al cliente. Analiza tus datos conversacionales para obtener más estadísticas sobre las llamadas y los clientes. Speech‑to‑Text y sus modelos mejorados de llamadas telefónicas ya son parte esencial de la potente solución Contact Center AI de Google Cloud.
Implementa comandos por voz, como “sube el volumen”, y búsquedas por voz, como “¿qué temperatura hace en París?”. Combina esto con la API de Text‑to‑Speech para ofrecer experiencias habilitadas por voz en aplicaciones de IoT (Internet de las cosas).
Transcribe tu audio y video para incluir subtítulos y mejorar el alcance de público y sus experiencias. Agrega subtítulos a tu contenido de transmisión en tiempo real. Nuestro modelo de transcripción de video es ideal para indexar y subtitular contenido de video o de varios interlocutores, y usa una tecnología de aprendizaje automático similar a la de los subtítulos de YouTube.
Todas las funciones
Todas las funciones
Vocabulario mundial | Atiende a tu base de usuarios global mediante la amplia compatibilidad de Speech‑to‑Text con más de 125 idiomas y variantes. |
Reconocimiento de voz en vivo | Recibe resultados de reconocimiento de voz en tiempo real a medida que la API procesa la entrada de audio transmitida desde el micrófono de tu aplicación o enviada desde un archivo de audio pregrabado (intercalada o a través de Cloud Storage). |
Adaptación de voz | Personaliza el reconocimiento de voz para transcribir términos específicos del dominio y palabras poco frecuentes mediante sugerencias, y mejora la precisión de la transcripción de palabras o frases específicas. Usa clases para convertir de forma automática los números pronunciados en direcciones, años, monedas y mucho más. |
Speech‑to‑Text On‑Prem | Consigue un control total de tu infraestructura y tus datos de voz protegidos, y aprovecha la tecnología de reconocimiento de voz de Google de forma local, directamente en tus centros de datos privados. Comunícate con Ventas para comenzar. |
Reconocimiento de varios canales | Speech‑to‑Text puede reconocer canales individuales en situaciones multicanal (p. ej., videoconferencias) y realizar anotaciones en las transcripciones para preservar el orden. |
Resistencia al ruido | Speech‑to‑Text puede procesar el audio con ruido proveniente de muchos entornos sin necesidad de usar una cancelación de ruido adicional. |
Modelos específicos del dominio | Elige entre varios modelos entrenados y seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria para satisfacer los requisitos de calidad específicos del dominio. Por ejemplo, nuestro modelo mejorado para llamadas telefónicas está ajustado para el audio que se origina mediante la telefonía, como las llamadas grabadas con una tasa de muestreo de 8 kHz. |
Filtrado de contenido | El filtro de lenguaje obsceno te ayuda a detectar el contenido inadecuado o poco profesional en tus datos de audio y a filtrar las palabras obscenas en los resultados de texto. |
Evaluación de la transcripción | Sube tus propios datos de voz y transcríbelos sin código. Evalúa la calidad mediante iteraciones en la configuración. |
Puntuación automática (beta) | Speech‑to‑Text aplica la puntuación correcta a las transcripciones (p. ej., comas, signos de interrogación y puntos). |
Identificación de interlocutores (beta) | Recibe predicciones automáticas sobre cuál de los interlocutores pronunció cada enunciado de una conversación para saber quién dijo qué. |
Precios
Precios
Speech-to-Text se cobra en función de la cantidad de audio que procesa correctamente el servicio cada mes y se mide en incrementos de un segundo.