Descubre de forma exclusiva las últimas funciones de Speech-to-Text en acción en Next '21. Registrarme gratis

Ir a

Speech‑to‑Text

Convierte voz en texto de forma precisa con una API basada en las tecnologías de IA de Google

  • action/check_circle_24px Creado con Sketch

    Transcribe tu contenido y ofrece subtítulos precisos.

  • action/check_circle_24px Creado con Sketch

    Mejora la experiencia de tus usuarios con comandos de voz.

  • action/check_circle_24px Creado con Sketch

    Obtén información valiosa a partir de las interacciones con los clientes y mejora tu servicio

Ventajas

Precisión de última generación

Speech-to-Text aplica los algoritmos de la red neuronal de aprendizaje profundo más avanzada de Google para reconocer la voz automáticamente.

Personalización de modelos sencilla

La UI de Speech-to-Text te permite experimentar, crear y gestionar recursos personalizados.

Despliegue flexible

Despliega reconocimiento de voz donde lo necesites, ya sea en la nube con la API u on‑premise con Speech‑to‑Text On‑Prem.

Demostración

Comprueba cómo funciona Speech-to-Text en la práctica

Al igual que en esta demostración, puedes integrar fácilmente la transcripción de voz en tus aplicaciones con la API Speech‑to‑Text.

Características principales

Características principales

Adaptación de voz

Utiliza las sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.

Modelos para dominios específicos

Elige entre una selección de modelos entrenados para recibir comandos de voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para procesar los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas a una frecuencia de muestreo de 8 kHz).

Compara fácilmente la calidad

Haz experimentos con tus datos de audio con nuestra interfaz de usuario fácil de usar. Prueba distintas configuraciones para optimizar la calidad y la precisión.

Speech-to-Text On-Prem

Disfruta de un control total sobre tu infraestructura y sobre datos de discurso oral protegidos a la vez que aprovechas la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar.

Ver todas las características

Novedades

Novedades

Suscríbete para recibir newsletters de Google Cloud con novedades sobre productos, información de eventos, ofertas especiales y mucho más.

Documentación

Documentación

Aspectos básicos de Google Cloud
Aspectos básicos de Speech-to-Text

Familiarízate con los conceptos clave de Speech‑to‑Text.

Guía de inicio rápido
Guía de inicio rápido: Usar la herramienta gcloud

Utiliza la herramienta gcloud para solicitar una transcripción de audio a Speech‑to‑Text con la línea de comandos.

Práctica recomendada
Prácticas recomendadas

Consulta cuáles son las prácticas recomendadas para transcribir archivos de audio con Speech‑to‑Text.

Tutorial
Aprendizaje automático

Descubre tutoriales y codelabs de Speech-to-Text, entre otros muchos recursos más.

Aspectos básicos de Google Cloud
Idiomas disponibles

Consulta qué idiomas admite Speech‑to‑Text, así como las funciones y los modelos de reconocimiento que ofrece cada uno.

Aspectos básicos de Google Cloud
Speech-to-Text On-Prem

Infórmate sobre Speech‑to‑Text On‑Prem, que permite integrar fácilmente la tecnología de reconocimiento de voz de Google en tus soluciones on‑premise.

Guía de inicio rápido
Guía de inicio rápido: usar la UI de Speech-to-Text

Aprende a configurar tu proyecto, gestionar autorizaciones, crear y refinar transcripciones, y usar esta configuración en la consola.

Usos

Usos

Uso
Mejora del servicio de atención al cliente

Mejora el sistema de tu servicio de atención al cliente en tus centros de llamadas a través de las respuestas de voz interactivas (IVR) y las conversaciones con agentes. Analiza los datos de las conversaciones para obtener información valiosa sobre las llamadas y tus clientes. Tanto Speech-to-Text como sus modelos de llamadas telefónicas mejorados aprovechan las ventajas de la potente solución Contact Center AI de Google Cloud.

Flujo de trabajo: los datos pasan del cuadro "Contact Center Audio Data" (datos de audio de Contact Center) y continúan a través de los cuadros etiquetados como productos de Google Cloud en el siguiente orden: Cloud Storage, (1) Transcribe (transcribir) con la API Speech-to-Text, API de Natural Language, (2) Analyze (analizar) con Cloud Data Loss Prevention y (3) Redact PII (redactar información personal identificable) con BigQuery. Luego, este flujo se mueve en ambas direcciones pasando por BigQuery, (4) Store (almacenar) y (5) Query and visualize (realizar consultas y visualizar) datos con el cuadro Visualize Call Data (visualizar datos de llamadas).
Uso
Activar control por voz

Puedes incorporar comandos de voz (como "sube el volumen") y búsquedas por voz ("¿qué tiempo hace en París?"), y combinar estas funciones con la API Text‑to‑Speech para ofrecer aplicaciones del Internet de las cosas con funciones de voz.

Flujo de trabajo que muestra cómo se utiliza la API Speech-to-Text para habilitar el control por voz. El flujo empieza en (1) User voice command (comando de voz del usuario) y pasa por el cuadro User device (dispositivo de usuario), que tiene dos flujos bilaterales: uno que conecta con (0) Unique secure identity (identidad segura única) con Cloud IoT Core, y otro que pasa por Cloud Functions, (2) Transcribe (transcribir) con la API Speech-to-Text, AutoML Natural Language, (3) Intent and entity extraction (extracción de intención y entidad) y, por último, vuelve a los cuadros Cloud Functions y User device (dispositivo de usuario).
Uso
Transcripción de contenido multimedia

Transcribe archivos de audio y vídeo e incluye subtítulos para llegar a más usuarios y mejorar su experiencia. Además, puedes añadir subtítulos en tiempo real al contenido en streaming. Nuestro modelo de transcripción de vídeo es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, hace uso de una tecnología de aprendizaje automático similar a la que se emplea en los subtítulos de YouTube.

Flujo de trabajo de la sección Transcripción de contenido multimedia: empezando por Input Audio Stream (flujo de audio de entrada), pasa por (1) Real-time caption (subtítulos en tiempo real), Google Kubernetes Engine, API Speech-to-Text, (2) Evaluate transcription (evaluar la transcripción), Deep Learning VM y Firestore. En este último cuadro, el flujo se bifurca y conecta tanto con el cuadro Content Moderation Team (equipo de moderación de contenido) como con (3) Store and leverage (almacenar y aprovechar) y Broadcast Caption Device (dispositivo de subtítulos por difusión).

Todas las características

Todas las características

Vocabulario internacional Con Speech‑to‑Text podrás ofrecer un servicio de asistencia a tu base de usuarios internacionales, ya que admite más de 125 idiomas y variantes lingüísticas.
Reconocimiento de voz en streaming Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage).
Adaptación de voz Utiliza sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.
Speech‑to‑Text On‑Prem Disfruta de un control total sobre tu infraestructura y sobre datos de discurso oral protegidos a la vez que aprovechas la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar.
Reconocimiento multicanal Speech-to-Text puede distinguir entre un canal y otro en las situaciones donde intervengan varios canales (por ejemplo, en una videoconferencia) y anotar las transcripciones para mantener el orden de aparición.
Tratamiento del ruido Speech-to-Text puede procesar archivos de audio de multitud de entornos ruidosos sin necesidad de aplicar reducción del ruido.
Modelos para dominios específicos Elige entre una selección de modelos entrenados para recibir comandos de voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para procesar los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas a una frecuencia de muestreo de 8 kHz).
Filtrado de contenido El filtro de palabras malsonantes te ayuda a detectar el contenido que no sea adecuado o profesional en los datos de audio y a descartar las palabras inapropiadas en los resultados de texto.
Evaluación de las transcripciones Sube datos de tu voz y transcribe mensajes sin necesidad de usar código. Evalúa la calidad iterando la configuración.
Puntuación automática (beta) Speech-to-Text puntúa las transcripciones con precisión (comas, puntos, signos de interrogación, etc.).
Diarización de interlocutores (beta) La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién ha dicho qué.

Precios

Precios

Cloud Speech-to-Text se tarifica en intervalos de 15 segundos de audio procesados a partir de los 60 primeros minutos, que son gratuitos.