Escolher uma função de transcrição

Neste documento, você encontra uma comparação das funções de transcrição disponíveis no BigQuery ML, que são ML.GENERATE_TEXT e ML.TRANSCRIBE.

Use as informações deste documento para decidir qual função usar nos casos em que as funções têm recursos sobrepostos.

De modo geral, a diferença entre essas funções é a seguinte:

  • O ML.GENERATE_TEXT é uma boa opção para transcrever clipes de áudio de até 10 minutos. Você também pode usá-lo para realizar tarefas de processamento de linguagem natural (PLN). A transcrição de áudio com ML.GENERATE_TEXT é menos cara do que com ML.TRANSCRIBE quando você usa o modelo gemini-1.5-flash.

  • ML.TRANSCRIBE é uma boa opção para fazer a transcrição de clipes de áudio com mais de 10 minutos. Ele também oferece suporte a uma gama mais ampla de línguas do que o ML.GENERATE_TEXT.

Modelos compatíveis

Os modelos compatíveis são os seguintes:

Tarefas compatíveis

As tarefas com suporte são estas:

  • ML.GENERATE_TEXT: é possível realizar tarefas de transcrição de áudio e processamento de linguagem natural (PLN).
  • ML.TRANSCRIBE: é possível fazer a transcrição de áudio.

Preços

O preço é o seguinte:

Ajuste supervisionado

O suporte a ajustes supervisionados é o seguinte:

  • ML.GENERATE_TEXT: o ajuste supervisionado é compatível com alguns modelos.
  • ML.TRANSCRIBE: não há suporte para o ajuste supervisionado.

Limite de consultas por minuto (QPM)

Os limites de QPM são os seguintes:

  • ML.GENERATE_TEXT: 60 QPM na região us-central1 padrão para modelos gemini-1.5-pro e 200 QPM na região us-central1 padrão para modelos gemini-1.5-flash. Para mais informações, consulte IA generativa em cotas da Vertex AI.
  • ML.TRANSCRIBE: 900 QPM por projeto. Para mais informações, consulte Cotas e limites.

Para aumentar sua cota, consulte Solicitar uma cota maior.

Limite de tokens

Os limites de tokens são os seguintes:

  • ML.GENERATE_TEXT: 700 tokens de entrada e 8.196 tokens de saída. Esse limite de token de saída significa que ML.GENERATE_TEXT tem um limite de aproximadamente 39 minutos para um clipe de áudio individual.
  • ML.TRANSCRIBE: sem limite de tokens. No entanto, essa função tem um limite de 480 minutos para um clipe de áudio individual.

Idiomas disponíveis

Os idiomas compatíveis são os seguintes:

Disponibilidade por região

A disponibilidade por região é a seguinte:

  • ML.GENERATE_TEXT: disponível em todas as regiões de IA generativa para a Vertex AI.
  • ML.TRANSCRIBE: disponível nas multirregiões EU e US para todos os reconhecedores de fala.