Speech-to-Text

Convierte con precisión voz a texto con una API impulsada por las tecnologías de IA de Google.

Probar gratis
  • action/check_circle_24pxCreado con Sketch.

    Transcribe tu contenido con subtítulos precisos.

  • action/check_circle_24pxCreado con Sketch.

    Entrega una mejor experiencia del usuario en los productos mediante comandos por voz.

  • action/check_circle_24pxCreado con Sketch.

    Obtén estadísticas de las interacciones con clientes para mejorar tu servicio.

Ventajas

Precisión de vanguardia

Aplica los algoritmos más avanzados de red neuronal de aprendizaje profundo de Google para el reconocimiento de voz automático (ASR).

Alcance global

Interactúa con tus usuarios en cualquier parte del mundo en la que se encuentren con un reconocimiento de voz que admite más de 125 idiomas y variantes.

Implementación flexible

Implementa reconocimiento de voz donde lo necesites, ya sea en la nube con la API o de forma local con Speech-to-Text On-Prem.

Demostración

Usa Speech-to-Text

Características clave

Características clave

Adaptación de voz

Personaliza el reconocimiento de voz para transcribir términos específicos del dominio y palabras poco frecuentes mediante sugerencias, y mejora la precisión de la transcripción de palabras o frases específicas. Usa clases para convertir automáticamente los números pronunciados en direcciones, años, monedas y mucho más.

Modelos específicos del dominio

Elige entre varios modelos entrenados seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria a fin de satisfacer los requisitos de calidad específicos del dominio. Por ejemplo, nuestro modelo mejorado de llamadas telefónicas está ajustado para el audio que se origina mediante la telefonía, como las llamadas grabadas con una tasa de muestreo de 8 kHz.

Reconocimiento de voz en vivo

Recibe resultados de reconocimiento de voz en tiempo real a medida que la API procesa la entrada de audio transmitida desde el micrófono de tu aplicación o enviada desde un archivo de audio pregrabado (por la línea o a través de Cloud Storage).

Speech-to-Text On-Prem

Consigue un control total sobre tu infraestructura y tus datos de voz protegidos, y aprovecha la tecnología local de reconocimiento de voz de Google, directamente en tus centros de datos privados. Comunícate con ventas para comenzar.

Ver todas las características

Clientes

Clientes

Castbox usa Speech-to-Text para brindar su servicio de búsqueda dentro del audio para podcasts.
Leer la historia

Aspectos destacados de la historia

  • Permite a los usuarios buscar palabras o frases en el contenido de audio

  • Tasas de precisión de más del 96% en la conversión de audio a texto

  • Búsquedas típicas con una latencia de solo 50 milisegundos

Sector

  • Tecnología

Novedades

Novedades

Regístrate para recibir los boletines informativos de Google Cloud con información sobre actualizaciones de productos, eventos, ofertas especiales y mucho más.

Documentación

Documentación

Conceptos básicos de Google Cloud
Conceptos básicos de Speech-to-Text

Conoce los conceptos básicos de Speech-to-Text.

Guía de inicio rápido
Guía de inicio rápido: Usa la herramienta de gcloud

Envía una solicitud de transcripción de audio a Speech-to-Text mediante la herramienta de gcloud desde la línea de comandos.

Práctica recomendada
Prácticas recomendadas

Revisa las prácticas recomendadas para transcribir audio con Speech-to-Text.

Conceptos básicos de Google Cloud
Idiomas admitidos

Conoce qué idiomas están disponibles para Speech-to-Text, además de las características y modelos de reconocimiento disponibles para cada uno.

Conceptos básicos de Google Cloud
Speech-to-Text On-Prem

Obtén más información sobre Speech-to-Text On-Prem, que permite una integración sencilla de la tecnología de reconocimiento de voz de Google en tus soluciones locales.

Casos de uso

Casos de uso

Caso de uso
Mejora la atención al cliente

Agrega IVR (Respuesta de voz interactiva) y conversaciones con agentes a tus centros de llamadas para potenciar tu sistema de atención al cliente. Realiza análisis estadísticos en tus datos conversacionales para obtener más información valiosa sobre las llamadas y los clientes. Speech-to-Text y sus modelos mejorados de llamadas telefónicas ya son parte esencial de la potente solución Contact Center AI de Google Cloud.

Usa Contact Center AI con la tecnología de voz a texto para mejorar la atención al cliente
Caso de uso
Habilita el control por voz

Implementa comandos por voz, como “sube el volumen”, y búsquedas por voz, como "¿qué temperatura hace en París?”. Combina esto con la API de Text-to-Speech para ofrecer experiencias habilitadas por voz en aplicaciones de IoT (Internet de las cosas).

Flujo de trabajo del control por voz con la API de Speech-to-Text
Caso de uso
Transcribe contenido multimedia

Transcribe tu audio y video para que incluya subtítulos y mejorar el alcance de público y sus experiencias. Agrega subtítulos a tu contenido de transmisión en tiempo real. Nuestro modelo de transcripción de video es ideal para indexar y subtitular contenido de video o de varios interlocutores, y usa una tecnología de aprendizaje automático similar a la de los subtítulos de YouTube.

Flujo de trabajo de transcripción de contenido multimedia

Todas las características

Todas las características

Vocabulario mundial Brinda asistencia a tu base de usuarios global mediante la amplia compatibilidad de Speech-to-Text con más de 125 idiomas y variantes.
Reconocimiento de voz en vivo Recibe resultados de reconocimiento de voz en tiempo real a medida que la API procesa la entrada de audio transmitida desde el micrófono de tu aplicación o enviada desde un archivo de audio pregrabado (por la línea o a través de Cloud Storage).
Adaptación de voz Personaliza el reconocimiento de voz para transcribir términos específicos del dominio y palabras poco frecuentes mediante sugerencias, y mejora la precisión de la transcripción de palabras o frases específicas. Usa clases para convertir de forma automática los números pronunciados en direcciones, años, monedas y mucho más.
Speech-to-Text On-Prem Consigue un control total sobre tu infraestructura y tus datos de voz protegidos, y aprovecha la tecnología local de reconocimiento de voz de Google, directamente en tus centros de datos privados. Comunícate con ventas para comenzar.
Reconocimiento de varios canales Speech-to-Text puede reconocer canales individuales en situaciones multicanal (p. ej., videoconferencias) y realizar anotaciones en las transcripciones para preservar el orden.
Resistencia al ruido Speech-to-Text puede procesar el audio con ruido proveniente de muchos entornos sin necesidad de usar una reducción del ruido adicional.
Modelos específicos del dominio Elige entre varios modelos entrenados seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria a fin de satisfacer los requisitos de calidad específicos del dominio. Por ejemplo, nuestro modelo mejorado de llamadas telefónicas está ajustado para el audio que se origina mediante la telefonía, como las llamadas grabadas con una tasa de muestreo de 8 kHz.
Filtrado de contenido El filtro de lenguaje obsceno te ayuda a detectar el contenido inadecuado o poco profesional en tus datos de audio y filtrar las palabras obscenas en los resultados de texto.
Detección automática de idiomas (Beta) Especifica hasta cuatro códigos de idioma para que Speech-to-Text identifique el idioma correcto que se está hablando en situaciones con múltiples idiomas.
Puntuación automática (Beta) Speech-to-Text aplica la puntuación correcta a las transcripciones (p. ej., comas, signos de interrogación y puntos).
Identificación de interlocutores (Beta) Recibe predicciones automáticas sobre cuál de los interlocutores pronunció cada enunciado de una conversación para saber quién dijo qué.

Precios

Precios

Speech-to-Text se cobra por cada 15 segundos de audio procesado luego de un nivel gratuito de 60 minutos.