Escolher uma função de transcrição
Neste documento, você encontra uma comparação das funções de transcrição
disponíveis no BigQuery ML, que são
ML.GENERATE_TEXT
e
ML.TRANSCRIBE
.
Use as informações deste documento para decidir qual função usar nos casos em que as funções têm recursos sobrepostos.
De modo geral, a diferença entre essas funções é a seguinte:
O
ML.GENERATE_TEXT
é uma boa opção para transcrever clipes de áudio de até 10 minutos. Você também pode usá-lo para realizar tarefas de processamento de linguagem natural (PLN). A transcrição de áudio comML.GENERATE_TEXT
é menos cara do que comML.TRANSCRIBE
quando você usa o modelogemini-1.5-flash
.ML.TRANSCRIBE
é uma boa opção para fazer a transcrição de clipes de áudio com mais de 10 minutos. Ele também oferece suporte a uma gama mais ampla de línguas do que oML.GENERATE_TEXT
.
Modelos compatíveis
Os modelos compatíveis são os seguintes:
ML.GENERATE_TEXT
: é possível usar um subconjunto dos modelos Gemini da Vertex AI para gerar texto. Para mais informações sobre modelos compatíveis, consulte a sintaxeML.GENERATE_TEXT
.ML.TRANSCRIBE
: você usa o modelo padrão da API Speech-to-Text. O uso da API Document AI dá acesso à transcrição com o modelo de fala Chirp.
Tarefas compatíveis
As tarefas com suporte são estas:
ML.GENERATE_TEXT
: é possível realizar tarefas de transcrição de áudio e processamento de linguagem natural (PLN).ML.TRANSCRIBE
: é possível fazer a transcrição de áudio.
Preços
O preço é o seguinte:
ML.GENERATE_TEXT
: para conferir os preços dos modelos da Vertex AI que você usa com essa função, consulte Preços da Vertex AI. O ajuste supervisionado de modelos compatíveis é cobrado em dólares por hora de uso do nó. Para mais informações, consulte Preços do treinamento personalizado da Vertex AI.ML.TRANSCRIBE
: para saber os preços do serviço do Cloud AI que você usa com essa função, consulte Preços da API Speech-to-Text.
Ajuste supervisionado
O suporte a ajustes supervisionados é o seguinte:
ML.GENERATE_TEXT
: o ajuste supervisionado é compatível com alguns modelos.ML.TRANSCRIBE
: não há suporte para o ajuste supervisionado.
Limite de consultas por minuto (QPM)
Os limites de QPM são os seguintes:
ML.GENERATE_TEXT
: 60 QPM na regiãous-central1
padrão para modelosgemini-1.5-pro
e 200 QPM na regiãous-central1
padrão para modelosgemini-1.5-flash
. Para mais informações, consulte IA generativa em cotas da Vertex AI.ML.TRANSCRIBE
: 900 QPM por projeto. Para mais informações, consulte Cotas e limites.
Para aumentar sua cota, consulte Solicitar uma cota maior.
Limite de tokens
Os limites de tokens são os seguintes:
ML.GENERATE_TEXT
: 700 tokens de entrada e 8.196 tokens de saída. Esse limite de token de saída significa queML.GENERATE_TEXT
tem um limite de aproximadamente 39 minutos para um clipe de áudio individual.ML.TRANSCRIBE
: sem limite de tokens. No entanto, essa função tem um limite de 480 minutos para um clipe de áudio individual.
Idiomas disponíveis
Os idiomas compatíveis são os seguintes:
ML.GENERATE_TEXT
: oferece suporte aos mesmos idiomas do Gemini.ML.TRANSCRIBE
: oferece suporte a todos os idiomas compatíveis com o Speech-to-Text.
Disponibilidade por região
A disponibilidade por região é a seguinte:
ML.GENERATE_TEXT
: disponível em todas as regiões de IA generativa para a Vertex AI.ML.TRANSCRIBE
: disponível nas multirregiõesEU
eUS
para todos os reconhecedores de fala.