No te pierdas los últimos anuncios de Google Cloud Next. Ver ahora
Ir a

Speech‑to‑Text

Convierte voz en texto de forma precisa con una API basada en las mejores tecnologías e investigaciones de IA de Google.

Los nuevos clientes reciben 300 USD en crédito gratis para utilizarlo en Speech-to-Text. Además, todos los clientes disponen de 60 minutos gratis al mes para transcribir y analizar audio, y no se les descuentan de su crédito.

  • Transcribe tu contenido y ofrece subtítulos precisos

  • Saca partido a la voz para ofrecer mejores experiencias de usuario

  • Optimiza tu servicio con información valiosa extraída de las interacciones de los clientes

  • Ponte en marcha sin perder un segundo con nuestro tutorial en la consola

Ventajas

Precisión de última generación

Speech-to-Text aprovecha los algoritmos de la red neuronal de aprendizaje profundo más avanzados de Google para reconocer la voz automáticamente.

Personalización de modelos sencilla

Crea, gestiona y experimenta con recursos personalizados en la interfaz de usuario de Speech-to-Text.

Despliegue flexible de modelos

Despliega modelos de reconocimiento automático de voz donde los necesites, ya sea en la nube con la API u on‑premise con Speech-to-Text On-Prem.

Demostración

Comprueba cómo funciona Speech-to-Text en la práctica

Al igual que en esta demostración, puedes integrar fácilmente la transcripción de voz en tus aplicaciones con la API Speech‑to‑Text.

Características principales

Características principales

Adaptación de voz

Ofrece sugerencias para mejorar la precisión de la transcripción de términos o frases de un dominio específico o poco frecuentes. Usa las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y más.

Modelos para dominios específicos

Elige entre una selección de modelos entrenados para recibir comandos de voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. 

Compara fácilmente la calidad

Haz experimentos con tus datos de audio con nuestra interfaz de usuario fácil de usar. Prueba distintas configuraciones para optimizar la calidad y la precisión.

Speech-to-Text On-Prem

Mantén el control sobre tu infraestructura y sobre datos de discurso oral protegidos aprovechando la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar.

Reconocimiento de voz en el dispositivo

Ejecuta los algoritmos de reconocimiento voz de Google Cloud de forma local en cualquier dispositivo, con independencia de tu conexión a Internet. Promete a los usuarios que sus datos de voz nunca saldrán de su dispositivo.

Ver todas las características

Documentación

Tutoriales y recursos de introducción

Tutorial
Tutoriales de Speech-to-Text en la consola

Consulta cómo añadir Speech-to-Text a tus aplicaciones. Ponte en marcha sin perder un segundo con nuestro tutorial en la consola.

Aspectos básicos de Google Cloud
Aspectos básicos de Speech-to-Text

Familiarízate con los conceptos clave de Speech‑to‑Text.

Guía de inicio rápido
Guía de inicio rápido: usar la UI de Speech-to-Text

Aprende a configurar tu proyecto, gestionar autorizaciones, crear y refinar transcripciones, y usar esta configuración en la consola.

Guía de inicio rápido
Guía de inicio rápido: Usar la herramienta gcloud

Utiliza la herramienta gcloud para solicitar una transcripción de audio a Speech‑to‑Text con la línea de comandos.

Práctica recomendada
Prácticas recomendadas

Consulta cuáles son las prácticas recomendadas para transcribir archivos de audio con Speech‑to‑Text.

Tutorial
Aprendizaje automático

Descubre tutoriales y codelabs de Speech-to-Text, entre otros muchos recursos más.

Aspectos básicos de Google Cloud
Idiomas disponibles

Consulta qué idiomas admite Speech‑to‑Text, así como las funciones y los modelos de reconocimiento que ofrece cada uno.

Aspectos básicos de Google Cloud
Speech-to-Text On-Prem

Infórmate sobre Speech‑to‑Text On‑Prem, que permite integrar fácilmente la tecnología de reconocimiento de voz de Google en tus soluciones on‑premise.

Usos

Usos

Uso
Mejora del servicio de atención al cliente

Mejora el sistema de tu servicio de atención al cliente en tus centros de llamadas a través de las respuestas de voz interactivas (IVR) y las conversaciones con agentes. Analiza los datos de las conversaciones para obtener información valiosa sobre las llamadas y tus clientes. Tanto Speech-to-Text como sus modelos de llamadas telefónicas mejorados aprovechan las ventajas de la potente solución Contact Center AI de Google Cloud.

Flujo de trabajo: los datos pasan del cuadro "Contact Center Audio Data" (datos de audio de Contact Center) y continúan a través de los cuadros etiquetados como productos de Google Cloud en el siguiente orden: Cloud Storage, (1) Transcribe (transcribir) con la API Speech-to-Text, API de Natural Language, (2) Analyze (analizar) con Cloud Data Loss Prevention y (3) Redact PII (redactar información personal identificable) con BigQuery. Luego, este flujo se mueve en ambas direcciones pasando por BigQuery, (4) Store (almacenar) y (5) Query and visualize (realizar consultas y visualizar) con el cuadro Visualize Call Data (visualizar datos de llamadas).
Uso
Activar control por voz

Puedes incorporar comandos de voz (como "sube el volumen") y búsquedas por voz ("¿qué tiempo hace en París?"), y combinar estas funciones con la API Text‑to‑Speech para ofrecer aplicaciones del Internet de las cosas con funciones de voz.

Flujo de trabajo que muestra cómo se utiliza la API Speech-to-Text para habilitar el control por voz. El flujo empieza en (1) User voice command (comando de voz del usuario) y pasa por el cuadro User device (dispositivo de usuario), que tiene dos flujos bidireccionales: uno que conecta con (0) Unique secure identity (identidad segura única) con Cloud IoT Core, y otro que pasa por Cloud Functions, (2) Transcribe (transcribir) con la API Speech-to-Text, AutoML Natural Language, (3) Intent and entity extraction (extracción de intención y entidad) y, por último, vuelve a los cuadros Cloud Functions y User device (dispositivo de usuario).
Uso
Transcripción de contenido multimedia

Transcribe archivos de audio y vídeo e incluye subtítulos para llegar a más usuarios y mejorar su experiencia. Además, puedes añadir subtítulos en tiempo real al contenido en streaming. Nuestro modelo de transcripción de vídeo es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, hace uso de una tecnología de aprendizaje automático similar a la que se emplea en los subtítulos de YouTube.

Flujo de trabajo de la sección Transcripción de contenido multimedia: empezando por Input Audio Stream (flujo de audio de entrada), pasa por (1) Real-time caption (subtítulos en tiempo real), Google Kubernetes Engine, API Speech-to-Text, (2) Evaluate transcription (evaluar la transcripción), Deep Learning VM y Firestore. En este último cuadro, el flujo se bifurca y conecta tanto con el cuadro Content Moderation Team (equipo de moderación de contenido) como con (3) Store and leverage (almacenar y aprovechar) y Broadcast Caption Device (dispositivo de subtítulos por difusión).

Todas las características

Todas las características

Vocabulario internacional Con Speech‑to‑Text podrás ofrecer un servicio de asistencia a tu base de usuarios internacionales, ya que admite más de 125 idiomas y variantes lingüísticas.
Reconocimiento de voz en streaming Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage).
Adaptación de voz Utiliza sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.
Speech‑to‑Text On‑Prem Disfruta de un control total sobre tu infraestructura y sobre datos de discurso oral protegidos a la vez que aprovechas la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar.
Reconocimiento multicanal Speech-to-Text puede distinguir entre un canal y otro en las situaciones donde intervengan varios canales (por ejemplo, en una videoconferencia) y anotar las transcripciones para mantener el orden de aparición.
Tratamiento del ruido Speech-to-Text puede procesar archivos de audio de multitud de entornos ruidosos sin necesidad de aplicar ninguna reducción adicional del ruido.
Modelos para dominios específicos Elige entre una selección de modelos entrenados para recibir comandos de voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para procesar los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas a una frecuencia de muestreo de 8 kHz).
Filtrado de contenido El filtro de palabras malsonantes te ayuda a detectar el contenido que no sea adecuado o profesional en los datos de audio y a descartar las palabras inapropiadas en los resultados de texto.
Evaluación de las transcripciones Sube datos de tu voz y transcribe mensajes sin necesidad de usar código. Evalúa la calidad iterando la configuración.
Puntuación automática (beta) Speech-to-Text puntúa las transcripciones con precisión (comas, puntos, signos de interrogación, etc.).
Diarización de interlocutores (beta) La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién ha dicho qué.

Precios

Precios

El precio de Speech-to-Text se determina en función de la cantidad de audio que procese correctamente el servicio cada mes y se mide en incrementos de un segundo.