Speech-to-Text
Convierte voz en texto de forma precisa con una API basada en las tecnologías de IA de Google.
-
Transcribe contenido en tiempo real o a partir de archivos almacenados
-
Ofrece una mejor experiencia a tus usuarios con comandos de voz
-
Obtén información valiosa a partir de las interacciones con los clientes y mejora tu servicio
Ventajas
Precisión de última generación
Speech-to-Text aplica los algoritmos de la red neuronal de aprendizaje profundo más avanzada de Google para reconocer la voz automáticamente.
Cobertura mundial
Atiende a tus usuarios estén donde estén con una API capaz de reconocer más de 125 idiomas y variedades lingüísticas.
Despliegue flexible
Despliega reconocimiento de voz donde lo necesites, ya sea en la nube con la API u on‑premise con Speech‑to‑Text On‑Prem.
Demostración
Comprueba cómo funciona Speech-to-Text en la práctica
Al igual que en esta demostración, puedes integrar fácilmente la transcripción de voz en tus aplicaciones con la API Speech‑to‑Text.
Características principales
Características principales
Adaptación de voz
Utiliza las sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.
Modelos para dominios específicos
Elige entre una selección de modelos entrenados para recibir comandos de voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para procesar los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas a una frecuencia de muestreo de 8 kHz).
Reconocimiento de voz en streaming
Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage).
Speech‑to‑Text On‑Prem
Disfruta de un control total sobre tu infraestructura y sobre datos de discurso oral protegidos a la vez que aprovechas la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar.
Clientes
Descubre cómo integran los clientes Speech‑to‑Text en sus soluciones de audio y voz
Novedades
Novedades
Suscríbete para recibir newsletters de Google Cloud con novedades sobre productos, información de eventos, ofertas especiales y mucho más.
Documentación
Documentación
Aspectos básicos de Speech-to-Text
Familiarízate con los conceptos clave de Speech‑to‑Text.
Guía de inicio rápido: cómo usar la herramienta gcloud
Utiliza la herramienta gcloud para solicitar una transcripción de audio a Speech‑to‑Text con la línea de comandos.
Prácticas recomendadas
Consulta cuáles son las prácticas recomendadas para transcribir archivos de audio con Speech‑to‑Text.
Idiomas disponibles
Consulta qué idiomas admite Speech‑to‑Text, así como las funciones y los modelos de reconocimiento que ofrece cada uno.
Speech-to-Text On-Prem
Infórmate sobre Speech‑to‑Text On‑Prem, que permite integrar fácilmente la tecnología de reconocimiento de voz de Google en tus soluciones on‑premise.
Usos
Usos
Mejora el sistema de tu servicio de atención al cliente en tus centros de llamadas a través de las respuestas de voz interactivas (IVR) y las conversaciones con agentes. Analiza los datos de las conversaciones para obtener información valiosa sobre las llamadas y tus clientes. Tanto Speech-to-Text como sus modelos de llamadas telefónicas mejorados aprovechan las ventajas de la potente solución Contact Center AI de Google.
Puedes incorporar comandos de voz (como "sube el volumen") y búsquedas por voz ("¿qué tiempo hace en París?"), y combinar estas funciones con la API Text‑to‑Speech para ofrecer aplicaciones del Internet de las cosas con funciones de voz.
Transcribe archivos de audio y vídeo e incluye subtítulos para llegar a más usuarios y mejorar su experiencia. Además, puedes añadir subtítulos en tiempo real al contenido en streaming. Nuestro modelo de transcripción de vídeo es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, hace uso de una tecnología de aprendizaje automático similar a la que se emplea en los subtítulos de YouTube.
Todas las características
Todas las características
Vocabulario internacional | Con Speech‑to‑Text podrás ofrecer un servicio de asistencia a tu base de usuarios internacionales, ya que admite más de 125 idiomas y variantes lingüísticas. |
Reconocimiento de voz en streaming | Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage). |
Adaptación de voz | Utiliza sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más. |
Speech‑to‑Text On‑Prem | Disfruta de un control total sobre tu infraestructura y sobre datos de discurso oral protegidos a la vez que aprovechas la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar. |
Reconocimiento multicanal | Speech-to-Text puede distinguir entre un canal y otro en las situaciones donde intervengan varios canales (por ejemplo, en una videoconferencia) y anotar las transcripciones para mantener el orden de aparición. |
Tratamiento del ruido | Speech-to-Text puede procesar archivos de audio de multitud de entornos ruidosos sin necesidad de aplicar reducción del ruido. |
Modelos para dominios específicos | Elige entre una selección de modelos entrenados para recibir comandos de voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para procesar los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas a una frecuencia de muestreo de 8 kHz). |
Filtrado de contenido | El filtro de palabras malsonantes te ayuda a detectar el contenido que no sea adecuado o profesional en los datos de audio y a descartar las palabras inapropiadas en los resultados de texto. |
Detección automática del idioma (beta) | En las situaciones multilingües, podrás especificar hasta cuatro códigos de idioma y Speech-to-Text identificará correctamente el idioma que se esté hablando. |
Puntuación automática (beta) | Speech-to-Text puntúa las transcripciones con precisión (comas, puntos, signos de interrogación, etc.). |
Diarización de interlocutores (beta) | La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién ha dicho qué. |
Precios
Precios
Cada mes, puedes procesar 60 minutos de transcripción de voz de forma gratuita. A partir de ese intervalo de tiempo, se te cobra por cada 15 segundos de audio. Pueden aplicarse tarifas específicas en función del modelo que se use, de si se almacenan registros de datos y del número de canales de audio que se procesen.