Speech-to-Text
Convierte voz a texto con precisión mediante una API impulsada por las tecnologías de IA de Google.
-
Transcribe tu contenido en tiempo real o desde archivos almacenados.
-
Ofrece una mejor experiencia del usuario en los productos mediante comandos por voz.
-
Obtén estadísticas de las interacciones con clientes para mejorar tu servicio.
Ventajas
Precisión de vanguardia
Aplica los algoritmos más avanzados de red neuronal de aprendizaje profundo de Google para el reconocimiento de voz automático (ASR).
Alcance global
Interactúa con tus usuarios en cualquier parte del mundo en la que se encuentren con un reconocimiento de voz que admite más de 125 idiomas y variantes.
Implementación flexible
Implementa reconocimiento de voz donde lo necesites, ya sea en la nube con la API o de forma local con Speech-to-Text On-Prem.
Demostración
Usa Speech-to-Text
Al igual que en esta demostración, puedes incorporar fácilmente la transcripción de voz a tus aplicaciones con la API de Speech-to-Text.
Características clave
Características clave
Adaptación de voz
Personaliza el reconocimiento de voz para transcribir términos específicos del dominio y palabras poco frecuentes mediante sugerencias, y mejora la precisión de la transcripción de palabras o frases específicas. Usa clases para convertir automáticamente los números pronunciados en direcciones, años, monedas y mucho más.
Modelos específicos del dominio
Elige entre varios modelos entrenados seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria a fin de satisfacer los requisitos de calidad específicos del dominio. Por ejemplo, nuestro modelo mejorado de llamadas telefónicas está ajustado para el audio que se origina mediante la telefonía, como las llamadas grabadas con una tasa de muestreo de 8 kHz.
Reconocimiento de voz en vivo
Recibe resultados de reconocimiento de voz en tiempo real a medida que la API procesa la entrada de audio transmitida desde el micrófono de tu aplicación o enviada desde un archivo de audio pregrabado (por la línea o a través de Cloud Storage).
Speech-to-Text On-Prem
Consigue un control total sobre tu infraestructura y tus datos de voz protegidos, y aprovecha la tecnología local de reconocimiento de voz de Google, directamente en tus centros de datos privados. Comunícate con Ventas para comenzar.
Clientes
Aprende de los clientes que crean soluciones de audio y video con Speech-to-Text
Novedades
Novedades
Regístrate para recibir los boletines informativos de Google Cloud con información sobre actualizaciones de productos, eventos, ofertas especiales y mucho más.
Documentación
Documentación
Conceptos básicos de Speech-to-Text
Conoce los conceptos básicos de Speech-to-Text.
Guía de inicio rápido: Usa la herramienta de gcloud
Envía una solicitud de transcripción de audio a Speech-to-Text mediante la herramienta de gcloud desde la línea de comandos.
Prácticas recomendadas
Revisa las prácticas recomendadas para transcribir audio con Speech-to-Text.
Idiomas admitidos
Conoce qué idiomas están disponibles para Speech-to-Text, además de las características y modelos de reconocimiento disponibles para cada uno.
Speech-to-Text On-Prem
Obtén más información sobre Speech-to-Text On-Prem, que permite una integración sencilla de la tecnología de reconocimiento de voz de Google en tus soluciones locales.
Casos de uso
Casos de uso
Agrega IVR (Respuesta de voz interactiva) y conversaciones con agentes a tus centros de llamadas para potenciar tu sistema de atención al cliente. Realiza análisis estadísticos en tus datos conversacionales para obtener más información valiosa sobre las llamadas y los clientes. Speech-to-Text y sus modelos mejorados de llamadas telefónicas ya son parte esencial de la potente solución Contact Center AI de Google Cloud.
Implementa comandos por voz, como “sube el volumen”, y búsquedas por voz, como "¿qué temperatura hace en París?”. Combina esto con la API de Text-to-Speech para ofrecer experiencias habilitadas por voz en aplicaciones de IoT (Internet de las cosas).
Transcribe tu audio y video para incluir subtítulos y mejorar el alcance de público y sus experiencias. Agrega subtítulos a tu contenido de transmisión en tiempo real. Nuestro modelo de transcripción de video es ideal para indexar y subtitular contenido de video o de varios interlocutores, y usa una tecnología de aprendizaje automático similar a la de los subtítulos de YouTube.
Todas las características
Todas las características
Vocabulario mundial | Brinda asistencia a tu base de usuarios global mediante la amplia compatibilidad de Speech-to-Text con más de 125 idiomas y variantes. |
Reconocimiento de voz en vivo | Recibe resultados de reconocimiento de voz en tiempo real a medida que la API procesa la entrada de audio transmitida desde el micrófono de tu aplicación o enviada desde un archivo de audio pregrabado (por la línea o a través de Cloud Storage). |
Adaptación de voz | Personaliza el reconocimiento de voz para transcribir términos específicos del dominio y palabras poco frecuentes mediante sugerencias, y mejora la precisión de la transcripción de palabras o frases específicas. Usa clases para convertir de forma automática los números pronunciados en direcciones, años, monedas y mucho más. |
Speech-to-Text On-Prem | Logra un control total de tu infraestructura y tus datos de voz protegidos, y aprovecha la tecnología local de reconocimiento de voz de Google, directamente en tus centros de datos privados. Comunícate con ventas para comenzar. |
Reconocimiento de varios canales | Speech-to-Text puede reconocer canales individuales en situaciones multicanal (p. ej., videoconferencias) y realizar anotaciones en las transcripciones para preservar el orden. |
Resistencia al ruido | Speech-to-Text puede procesar el audio con ruido proveniente de muchos entornos sin necesidad de usar una reducción del ruido adicional. |
Modelos específicos del dominio | Elige entre varios modelos entrenados seleccionados para el control por voz y las transcripciones de video y llamadas telefónicas, con la optimización necesaria a fin de satisfacer los requisitos de calidad específicos del dominio. Por ejemplo, nuestro modelo mejorado de llamadas telefónicas está ajustado para el audio que se origina mediante la telefonía, como las llamadas grabadas con una tasa de muestreo de 8 kHz. |
Filtrado de contenido | El filtro de lenguaje obsceno te ayuda a detectar el contenido inadecuado o poco profesional en tus datos de audio y filtrar las palabras obscenas en los resultados de texto. |
Detección automática de idiomas (beta) | Especifica hasta cuatro códigos de idioma para que Speech-to-Text identifique el idioma correcto que se está hablando en situaciones con múltiples idiomas. |
Puntuación automática (beta) | Speech-to-Text aplica la puntuación correcta a las transcripciones (p. ej., comas, signos de interrogación y puntos). |
Identificación de interlocutores (beta) | Recibe predicciones automáticas sobre cuál de los interlocutores pronunció cada enunciado de una conversación para saber quién dijo qué. |
Precios
Precios
Cada mes, los primeros 60 minutos de audio que se procesan con Speech-to-Text son gratuitos, luego se cobra por cada 15 segundos de audio. Las tarifas específicas varían según el modelo que se utiliza, si hay registros de datos, y la cantidad de canales de audio.