Elige una función de transcripción

En este documento, se proporciona una comparación de las funciones de transcripción disponibles en BigQuery ML, que son ML.GENERATE_TEXT y ML.TRANSCRIBE.

Puedes usar la información de este documento para decidir qué función usar en los casos en que las funciones tengan capacidades superpuestas.

En términos generales, la diferencia entre estas funciones es la siguiente:

  • ML.GENERATE_TEXT es una buena opción para la transcripción de clips de audio de 10 minutos o menos, y también puedes usarlo para realizar tareas de procesamiento de lenguaje natural (PLN). La transcripción de audio con ML.GENERATE_TEXT es menos costosa que con ML.TRANSCRIBE cuando usas el modelo gemini-1.5-flash.

  • ML.TRANSCRIBE es una buena opción para realizar transcripciones en clips de audio que duran más de 10 minutos. También admite una gama más amplia de idiomas que ML.GENERATE_TEXT.

Modelos compatibles

Los modelos compatibles son los siguientes:

Tareas admitidas

Las tareas admitidas son las siguientes:

  • ML.GENERATE_TEXT: Puedes realizar tareas de transcripción de audio y procesamiento de lenguaje natural (PLN).
  • ML.TRANSCRIBE: Puedes realizar la transcripción de audio.

Precios

Los precios se calculan de la siguiente manera:

Ajuste supervisado

La compatibilidad con la optimización supervisada es la siguiente:

  • ML.GENERATE_TEXT: El ajuste supervisado es compatible con algunos modelos.
  • ML.TRANSCRIBE: No se admite el ajuste supervisado.

Límite de consultas por minuto (QPM)

Los límites de QPM son los siguientes:

  • ML.GENERATE_TEXT: 60 QPM en la región predeterminada de us-central1 para los modelos gemini-1.5-pro y 200 QPM en la región predeterminada de us-central1 para los modelos gemini-1.5-flash Para obtener más información, consulta cuotas de IA generativa en Vertex AI.
  • ML.TRANSCRIBE: 900 QPM por proyecto Para obtener más información, consulta Cuotas y límites.

Para aumentar tu cuota, consulta Solicita una cuota más alta.

Límite de tokens

Los límites de tokens son los siguientes:

  • ML.GENERATE_TEXT: 700 tokens de entrada y 8, 196 tokens de salida. Este límite de tokens de salida significa que ML.GENERATE_TEXT tiene un límite de aproximadamente 39 minutos para un clip de audio individual.
  • ML.TRANSCRIBE: Sin límite de tokens. Sin embargo, esta función tiene un límite de 480 minutos para un clip de audio individual.

Lenguajes compatibles

Los lenguajes admitidos son los siguientes:

Disponibilidad por región

La disponibilidad por región es la siguiente:

  • ML.GENERATE_TEXT: disponible en todas las regiones de IA generativa para Vertex AI.
  • ML.TRANSCRIBE: Disponible en las multirregiones EU y US para todos los reconocedores de voz.