Speech-to-Text

Convierte voz en texto de forma precisa con una API basada en las tecnologías de AI de Google

Probar gratis
  • action/check_circle_24px Creado con Sketch

    Transcribe tu contenido y ofrece subtítulos precisos

  • action/check_circle_24px Creado con Sketch

    Mejora la experiencia de tus usuarios con comandos de voz

  • action/check_circle_24px Creado con Sketch

    Obtén información valiosa a partir de las interacciones con los clientes y mejora tu servicio

Precisión de última generación

Speech-to-Text aplica los algoritmos de la red neuronal de aprendizaje profundo más avanzada de Google para reconocer la voz automáticamente.

Cobertura mundial

Atiende a tus usuarios estén donde estén con una API capaz de reconocer más de 125 idiomas y variantes lingüísticas.

Innovación acelerada

Saca partido de lo mejor de las tecnologías de Google en Text-to-Speech y Natural Language para poner en marcha todo tipo de casos prácticos (por ejemplo, utilizar bots de voz o realizar análisis de opinión de voz).

Comprueba cómo funciona Speech-to-Text en la práctica

Características principales

Adaptación de voz

Utiliza las sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.

Modelos para dominios específicos

Elige entre una selección de modelos entrenados que puedes controlar mediante la voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas con una velocidad de muestreo de 8 kHz).

Reconocimiento de voz en streaming

Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage).

Ver todas las características

Clientes

Castbox utiliza Speech-to-Text para ofrecer su servicio de búsqueda en audio para podcasts.
Leer testimonio

Lo más destacado

  • Permite a los usuarios buscar frases o palabras en un contenido de audio.

  • El audio se transcribe con una precisión de más del 96 %.

  • La latencia habitual de las consultas de búsqueda es de solo 50 milisegundos.

Sector

  • Tecnología

Documentación

Aspectos básicos de Google Cloud
Aspectos básicos de Speech-to-Text

Familiarízate con los conceptos clave de Speech-to-Text.

Guía de inicio rápido
Guía de inicio rápido: cómo usar la herramienta gcloud

Utiliza la herramienta gcloud para solicitar una transcripción de audio a Speech-to-Text con la línea de comandos.

Práctica recomendada
Prácticas recomendadas

Consulta cuáles son las prácticas recomendadas para transcribir archivos de audio con Speech-to-Text.

Tutorial
Aprendizaje automático

Descubre tutoriales y codelabs de Speech-to-Text, entre otros muchos recursos más.

Aspectos básicos de Google Cloud
Idiomas disponibles

Consulta qué idiomas admite Speech-to-Text, así como las funciones y los modelos de reconocimiento que ofrece cada idioma.

Usos

Uso
Mejora del servicio de atención al cliente

Mejora el sistema de tu servicio de atención al cliente en tus centros de llamadas a través de las respuestas de voz interactivas (IVR) y las conversaciones con agentes. Analiza los datos de las conversaciones para obtener información valiosa sobre las llamadas y tus clientes. Tanto Speech-to-Text como sus modelos de llamadas telefónicas mejorados aprovechan las ventajas de la potente solución Contact Center AI de Google.

Uso de Contact Center AI con tecnologías de transcripción de voz para mejorar el servicio de atención al cliente
Uso
Control por voz

Puedes incorporar comandos de voz (como "sube el volumen") y búsquedas por voz ("¿qué tiempo hace en París?"), y combinar estas funciones con la API Text-to-Speech para ofrecer aplicaciones del Internet de las cosas con funciones de voz.

Flujo de trabajo que muestra cómo se utiliza la API Speech-to-Text para habilitar el control por voz
Uso
Transcripción de contenido multimedia

Transcribe archivos de audio y vídeo e incluye subtítulos para llegar a más usuarios y mejorar su experiencia. Además, puedes añadir subtítulos en tiempo real al contenido en streaming. Nuestro modelo de transcripción de vídeo es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, hace uso de una tecnología de aprendizaje automático similar a la que se emplea en los subtítulos de YouTube.

Flujo de trabajo de la transcripción de contenido multimedia

Todas las características

Vocabulario internacional Con Speech-to-Text podrás ofrecer un servicio de asistencia a tu base de usuarios internacionales, ya que admite más de 125 idiomas y variantes lingüísticas.
Reconocimiento de voz en streaming Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage).
Adaptación de voz Utiliza sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.
Reconocimiento multicanal Speech-to-Text puede distinguir entre un canal y otro en las situaciones donde intervengan varios canales (por ejemplo, en una videoconferencia) y anotar las transcripciones para mantener el orden de aparición.
Tratamiento del ruido Speech-to-Text puede procesar archivos de audio de multitud de entornos ruidosos sin necesidad de aplicar reducción del ruido.
Modelos para dominios específicos Elige entre una selección de modelos entrenados para recibir comandos de voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas con una velocidad de muestreo de 8 kHz).
Filtrado de contenido El filtro de palabras malsonantes te ayuda a detectar el contenido que no sea adecuado o profesional en los datos de audio y a descartar las palabras inapropiadas en los resultados de texto.
Detección automática del idioma (beta) En las situaciones multilingües, podrás especificar hasta cuatro códigos de idioma y Speech-to-Text identificará correctamente el idioma que se esté hablando.
Puntuación automática (beta) Speech-to-Text puntúa las transcripciones con precisión (comas, puntos, signos de interrogación, etc.).
Diarización de interlocutores (beta) La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién ha dicho qué.

Precio

Cloud Speech-to-Text se tarifica en intervalos de 15 segundos de audio procesados a partir de los 60 primeros minutos, que son gratuitos.