La API de Cloud Speech-to-Text V2 y Chirp ahora tienen disponibilidad general y un nuevo nivel de precios más bajo. Más información 
Ir a

Speech‑to‑Text

Convierte voz en texto con precisión usando una API con lo mejor de la investigación y la tecnología de IA de Google.

Los clientes nuevos obtienen $300 en créditos gratuitos para gastar en Speech‑to‑Text. Todos los clientes obtienen 60 minutos para transcribir y analizar audio gratis por mes, que no se descuentan de sus créditos.

  • Transcribe tu contenido con subtítulos precisos.

  • Habilita la potencia de la voz para crear mejores experiencias de usuario.

  • Mejora tu servicio con estadísticas de las interacciones de los clientes.

  • Comienza rápido con nuestro instructivo en la consola.

Beneficios

Precisión de vanguardia

Aplica los algoritmos más avanzados de red neuronal de aprendizaje profundo de Google para el reconocimiento de voz automático (ASR).

Personalización sencilla de modelos

Experimenta, crea y administra recursos personalizados con la IU de Speech‑to‑Text.

Implementación de modelos flexible

Implementa ASR cuando lo necesites, ya sea en la nube con la API o localmente con Speech‑to‑Text On-Prem.

Demostración

Usa Speech‑to‑Text

Al igual que en esta demostración, puedes incorporar fácilmente la transcripción de voz a tus aplicaciones con la API de Speech‑to‑Text.

Funciones clave

Funciones clave

Adaptación de voz

Proporciona sugerencias para aumentar la exactitud de la transcripción de palabras o frases inusuales o específicas del dominio. Usa clases para convertir automáticamente números hablados en direcciones, años, monedas y más.

Modelos específicos del dominio

Elige entre varios modelos entrenados y seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria para satisfacer los requisitos de calidad específicos del dominio. 

Comparaciones de calidad fáciles de obtener

Experimenta en tu audio de voz con nuestra interfaz de usuario fácil de utilizar. Prueba diferentes parámetros de configuración para optimizar la calidad y la exactitud.

Voz integrada en el dispositivo

Ejecuta los algoritmos de voz de Google Cloud de forma local en cualquier dispositivo, independientemente de la conectividad a Internet. Promételes a los usuarios que sus datos de voz nunca saldrán de sus dispositivos.

Modelo de base para Speech-to-Text

Crea aplicaciones compatibles con funciones de voz para públicos globales con modelos de voz que usan la tecnología de Chirp, el modelo de voz base de Google Cloud que se entrenó con millones de horas de datos de audio y miles de millones de oraciones de texto. 

Ver todas las funciones

Documentación

Instructivos y recursos para comenzar

Instructivo
Instructivos en la consola de Speech‑to‑Text

Más información para agregar Speech-to-Text a tus apps existentes. Comienza rápidamente con nuestro instructivo en la consola.

Conceptos básicos de Google Cloud
Conceptos básicos de Speech‑to‑Text

Conoce los conceptos básicos de Speech‑to‑Text.

Guía de inicio rápido
Guía de inicio rápido: Usa la IU de Speech‑to‑Text

Aprende a configurar tu proyecto y tu autorización, crea y perfecciona una transcripción, y descubre cómo usar esta configuración en la consola.

Guía de inicio rápido
Guía de inicio rápido: Usa la herramienta de gcloud

Envía una solicitud de transcripción de audio a Speech‑to‑Text mediante la herramienta de gcloud desde la línea de comandos.

Práctica recomendada
Prácticas recomendadas

Revisa las prácticas recomendadas para transcribir audio con Speech‑to‑Text.

Instructivo
ML onramp

Explora instructivos, codelabs y mucho más de Speech‑to‑Text.

Conceptos básicos de Google Cloud
Idiomas admitidos

Conoce qué idiomas están disponibles para Speech‑to‑Text, además de las funciones y los modelos de reconocimiento disponibles para cada uno.

Conceptos básicos de Google Cloud
Speech‑to‑Text On-Prem

Obtén más información sobre Speech‑to‑Text On-Prem, que permite una integración sencilla de la tecnología de reconocimiento de voz de Google en tus soluciones locales.

Casos de uso

Casos de uso

Caso de uso
Mejora la atención al cliente

Agrega IVR (Respuesta de voz interactiva) y conversaciones con agentes a tus centros de llamadas para potenciar tu sistema de atención al cliente. Analiza tus datos conversacionales para obtener más estadísticas sobre las llamadas y los clientes. Speech‑to‑Text y sus modelos mejorados de llamadas telefónicas ya son parte esencial de la potente solución Contact Center AI de Google Cloud.

Flujo de trabajo: los datos fluyen por los productos de Google Cloud desde los datos de audio del centro de contacto de la siguiente manera: de Cloud Storage a (1) la transcripción con la API de Speech-to-Text, a la API de Natural Language, al (2) análisis con Cloud Data Loss Prevention y al (3) ocultamiento de PII con BigQuery. Luego, el flujo se mueve en ambas direcciones: desde el (4) almacenamiento en BigQuery hacia la (5) consulta y visualización de los datos de llamada, y viceversa.
Caso de uso
Habilita el control por voz

Implementa comandos por voz, como “sube el volumen”, y búsquedas por voz, como “¿qué temperatura hace en París?”. Combina esto con la API de Text‑to‑Speech para ofrecer experiencias habilitadas por voz en aplicaciones de IoT (Internet de las cosas).

Flujo de trabajo del control por voz con la API de Speech‑to‑Text. El flujo comienza con el (1) comando por voz del usuario al dispositivo del usuario con un flujo en dos direcciones a la (0) identidad única segura con Cloud IoT Core y otro flujo en dos direcciones a Cloud Functions, a la (2) transcripción con la API de Speech-to-Text y a AutoML Natural Language con (3) extracción de intent y entidades, para regresar a Cloud Functions y al dispositivo del usuario.
Caso de uso
Transcribe contenido multimedia

Transcribe tu audio y video para incluir subtítulos y mejorar el alcance de público y sus experiencias. Agrega subtítulos a tu contenido de transmisión en tiempo real. Nuestro modelo de transcripción de video es ideal para indexar y subtitular contenido de video o de varios interlocutores, y usa una tecnología de aprendizaje automático similar a la de los subtítulos de YouTube.

Flujo de trabajo de transcripción del contenido multimedia: Datos de audio de entrada que se pasan como (1) subtítulos en tiempo real a Google Kubernetes Engine y, luego, a la API de Speech-to-Text, para pasar por la (2) evaluación de la transcripción en VM de aprendizaje profundo y Firestore. De allí, pasan por el equipo de moderación de contenido o por (3) el almacenamiento y aprovechamiento hacia el dispositivo de transmisión de subtítulos.

Todas las funciones

Todas las funciones

Vocabulario mundial Atiende a tu base de usuarios global mediante la amplia compatibilidad de Speech‑to‑Text con más de 125 idiomas y variantes.
Reconocimiento de voz en vivo Recibe resultados de reconocimiento de voz en tiempo real a medida que la API procesa la entrada de audio transmitida desde el micrófono de tu aplicación o enviada desde un archivo de audio pregrabado (intercalada o a través de Cloud Storage).
Adaptación de voz Personaliza el reconocimiento de voz para transcribir términos específicos del dominio y palabras poco frecuentes mediante sugerencias, y mejora la precisión de la transcripción de palabras o frases específicas. Usa clases para convertir de forma automática los números pronunciados en direcciones, años, monedas y mucho más.
Speech‑to‑Text On‑Prem Consigue un control total de tu infraestructura y tus datos de voz protegidos, y aprovecha la tecnología de reconocimiento de voz de Google de forma local, directamente en tus centros de datos privados. Comunícate con Ventas para comenzar.
Reconocimiento de varios canales Speech‑to‑Text puede reconocer canales individuales en situaciones multicanal (p. ej., videoconferencias) y realizar anotaciones en las transcripciones para preservar el orden.
Resistencia al ruido Speech‑to‑Text puede procesar el audio con ruido proveniente de muchos entornos sin necesidad de usar una cancelación de ruido adicional.
Modelos específicos del dominio Elige entre varios modelos entrenados y seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria para satisfacer los requisitos de calidad específicos del dominio. Por ejemplo, nuestro modelo mejorado para llamadas telefónicas está ajustado para el audio que se origina mediante la telefonía, como las llamadas grabadas con una tasa de muestreo de 8 kHz.
Filtrado de contenido El filtro de lenguaje obsceno te ayuda a detectar el contenido inadecuado o poco profesional en tus datos de audio y a filtrar las palabras obscenas en los resultados de texto.
Evaluación de la transcripción Sube tus propios datos de voz y transcríbelos sin código. Evalúa la calidad mediante iteraciones en la configuración.
Puntuación automática (beta) Speech‑to‑Text aplica la puntuación correcta a las transcripciones (p. ej., comas, signos de interrogación y puntos).
Identificación de interlocutores (beta) Recibe predicciones automáticas sobre cuál de los interlocutores pronunció cada enunciado de una conversación para saber quién dijo qué.

Precios

Precios

Speech-to-Text se cobra en función de la cantidad de audio que procesa correctamente el servicio cada mes y se mide en incrementos de un segundo.