Elige una función de transcripción
En este documento, se proporciona una comparación de las funciones de transcripción disponibles en BigQuery ML, que son ML.GENERATE_TEXT
y ML.TRANSCRIBE
.
Puedes usar la información de este documento para decidir qué función usar en los casos en que las funciones tengan capacidades superpuestas.
En términos generales, la diferencia entre estas funciones es la siguiente:
ML.GENERATE_TEXT
es una buena opción para la transcripción de clips de audio de 10 minutos o menos, y también puedes usarlo para realizar tareas de procesamiento de lenguaje natural (PLN). La transcripción de audio conML.GENERATE_TEXT
es menos costosa que conML.TRANSCRIBE
cuando usas el modelogemini-1.5-flash
.ML.TRANSCRIBE
es una buena opción para realizar transcripciones en clips de audio que duran más de 10 minutos. También admite una gama más amplia de idiomas queML.GENERATE_TEXT
.
Modelos compatibles
Los modelos compatibles son los siguientes:
ML.GENERATE_TEXT
: Puedes usar un subconjunto de los modelos de Gemini de Vertex AI para generar texto. Para obtener más información sobre los modelos compatibles, consulta la sintaxis deML.GENERATE_TEXT
.ML.TRANSCRIBE
: Usas el modelo predeterminado de la API de Speech-to-Text. El uso de la API de Document AI te brinda acceso a la transcripción con el modelo de voz de Chirp.
Tareas admitidas
Las tareas admitidas son las siguientes:
ML.GENERATE_TEXT
: Puedes realizar tareas de transcripción de audio y procesamiento de lenguaje natural (PLN).ML.TRANSCRIBE
: Puedes realizar la transcripción de audio.
Precios
Los precios se calculan de la siguiente manera:
ML.GENERATE_TEXT
: Para conocer los precios de los modelos de Vertex AI que usas con esta función, consulta Precios de Vertex AI. El ajuste supervisado de los modelos compatibles se cobra en dólares por hora de procesamiento de nodo. Para obtener más información, consulta los precios del entrenamiento personalizado de Vertex AI.ML.TRANSCRIBE
: Para conocer los precios del servicio de Cloud AI que usas con esta función, consulta Precios de la API de Speech-to-Text.
Ajuste supervisado
La compatibilidad con la optimización supervisada es la siguiente:
ML.GENERATE_TEXT
: El ajuste supervisado es compatible con algunos modelos.ML.TRANSCRIBE
: No se admite el ajuste supervisado.
Límite de consultas por minuto (QPM)
Los límites de QPM son los siguientes:
ML.GENERATE_TEXT
: 60 QPM en la región predeterminada deus-central1
para los modelosgemini-1.5-pro
y 200 QPM en la región predeterminada deus-central1
para los modelosgemini-1.5-flash
Para obtener más información, consulta cuotas de IA generativa en Vertex AI.ML.TRANSCRIBE
: 900 QPM por proyecto Para obtener más información, consulta Cuotas y límites.
Para aumentar tu cuota, consulta Solicita una cuota más alta.
Límite de tokens
Los límites de tokens son los siguientes:
ML.GENERATE_TEXT
: 700 tokens de entrada y 8, 196 tokens de salida. Este límite de tokens de salida significa queML.GENERATE_TEXT
tiene un límite de aproximadamente 39 minutos para un clip de audio individual.ML.TRANSCRIBE
: Sin límite de tokens. Sin embargo, esta función tiene un límite de 480 minutos para un clip de audio individual.
Lenguajes compatibles
Los lenguajes admitidos son los siguientes:
ML.GENERATE_TEXT
: Admite los mismos idiomas que Gemini.ML.TRANSCRIBE
: Admite todos los idiomas compatibles con la función de texto a voz.
Disponibilidad por región
La disponibilidad por región es la siguiente:
ML.GENERATE_TEXT
: disponible en todas las regiones de IA generativa para Vertex AI.ML.TRANSCRIBE
: Disponible en las multirregionesEU
yUS
para todos los reconocedores de voz.