O ajuste fino supervisionado é uma boa opção quando tem uma tarefa bem definida com dados etiquetados disponíveis. É particularmente eficaz para aplicações específicas do domínio em que o idioma ou o conteúdo diferem significativamente dos dados com os quais o modelo grande foi originalmente preparado. Pode ajustar os tipos de dados de texto, imagem, áudio e documento.
O ajuste fino supervisionado adapta o comportamento do modelo com um conjunto de dados etiquetado. Este processo ajusta as ponderações do modelo para minimizar a diferença entre as respetivas previsões e as etiquetas reais. Por exemplo, pode melhorar o desempenho do modelo para os seguintes tipos de tarefas:
- Classificação
- Resumo
- Respostas a perguntas extrativas
- Chat
Para uma discussão dos principais exemplos de utilização da otimização, consulte a publicação no blogue Centenas de organizações estão a otimizar os modelos Gemini. Seguem-se os exemplos de utilização favoritos.
Para saber mais, consulte o artigo Quando usar o ajuste fino supervisionado para o Gemini.
Modelos suportados
Os seguintes modelos Gemini suportam o ajuste fino supervisionado:
Para modelos que suportam o raciocínio, sugerimos que defina o orçamento de raciocínio como desativado ou o valor mais baixo. Isto pode melhorar o desempenho e reduzir os custos das tarefas otimizadas. Durante o ajuste fino supervisionado, o modelo aprende com os dados de preparação e omite o processo de reflexão. Por conseguinte, o modelo otimizado resultante pode realizar tarefas otimizadas de forma eficaz sem um orçamento de raciocínio.
Limitações
Gemini 2.5 Flash
Gemini 2.5 Flash-Lite
Especificação | Valor |
---|---|
Número máximo de tokens de entrada e saída para o treino | 131 072 |
Tokens de publicação de entrada e saída máximos | Igual ao modelo base do Gemini |
Tamanho máximo do conjunto de dados de validação | 5000 exemplos |
Tamanho máximo do ficheiro do conjunto de dados de preparação | 1 GB para JSONL |
Tamanho máximo do conjunto de dados de preparação | 1 milhão de exemplos apenas de texto ou 300 mil exemplos multimodais |
Tamanho do transformador | Os valores suportados são 1, 2, 4, 8 e 16 |
Gemini 2.5 Pro
Especificação | Valor |
---|---|
Número máximo de tokens de entrada e saída para o treino | 131 072 |
Tokens de publicação de entrada e saída máximos | Igual ao modelo base do Gemini |
Tamanho máximo do conjunto de dados de validação | 5000 exemplos |
Tamanho máximo do ficheiro do conjunto de dados de preparação | 1 GB para JSONL |
Tamanho máximo do conjunto de dados de preparação | 1 milhão de exemplos apenas de texto ou 300 mil exemplos multimodais |
Tamanho do transformador | Os valores suportados são 1, 2, 4 e 8 |
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
Especificação | Valor |
---|---|
Número máximo de tokens de entrada e saída para o treino | 131 072 |
Tokens de publicação de entrada e saída máximos | Igual ao modelo base do Gemini |
Tamanho máximo do conjunto de dados de validação | 5000 exemplos |
Tamanho máximo do ficheiro do conjunto de dados de preparação | 1 GB para JSONL |
Tamanho máximo do conjunto de dados de preparação | 1 milhão de exemplos apenas de texto ou 300 mil exemplos multimodais |
Tamanho do transformador | Os valores suportados são 1, 2, 4 e 8 |
Problemas conhecidos
- A aplicação da geração controlada ao enviar pedidos de inferência para modelos Gemini otimizados pode resultar numa diminuição da qualidade do modelo devido ao desalinhamento de dados durante a otimização e o tempo de inferência. Durante o ajuste, a geração controlada não é aplicada, pelo que o modelo ajustado não consegue processar bem a geração controlada no momento da inferência. O ajuste fino supervisionado personaliza eficazmente o modelo para gerar resultados estruturados. Por isso, não precisa de aplicar a geração controlada quando faz pedidos de inferência em modelos otimizados.
Exemplos de utilização da otimização detalhada supervisionada
Os modelos de base funcionam bem quando a saída ou a tarefa esperada pode ser definida de forma clara e concisa num comando, e o comando produz consistentemente a saída esperada. Se quiser que um modelo aprenda algo específico ou de nicho que se desvie dos padrões gerais, pode considerar ajustar esse modelo. Por exemplo, pode usar o ajuste do modelo para ensinar o modelo o seguinte:
- Estruturas ou formatos específicos para gerar resultados.
- Comportamentos específicos, como quando fornecer um resultado conciso ou detalhado.
- Resultados personalizados específicos para tipos de entradas específicos.
Os exemplos seguintes são exemplos de utilização difíceis de captar apenas com instruções de comando:
Classificação: a resposta esperada é uma palavra ou uma expressão específica.
Ajustar o modelo pode ajudar a impedir que este gere respostas detalhadas.
Resumo: o resumo segue um formato específico. Por exemplo, pode ter de remover informações de identificação pessoal (IIP) num resumo do chat.
Este formato de substituição dos nomes dos oradores por
#Person1
e#Person2
é difícil de descrever, e o modelo base pode não produzir naturalmente uma resposta deste tipo.Respostas a perguntas extrativas: a pergunta é sobre um contexto e a resposta é uma subcadeia de carateres do contexto.
A resposta "Último Máximo Glaciar" é uma expressão específica do contexto.
Chat: tem de personalizar a resposta do modelo para seguir um perfil, uma função ou um personagem.
Também pode otimizar um modelo nas seguintes situações:
- Os comandos não estão a produzir os resultados esperados com consistência suficiente.
- A tarefa é demasiado complicada para ser definida num comando. Por exemplo, quer que o modelo faça a clonagem de comportamento para um comportamento difícil de articular num comando.
- Tem intuições complexas sobre uma tarefa que são difíceis de formalizar num comando.
- Quer reduzir o comprimento do contexto removendo os exemplos de aprendizagem com poucos exemplos.
Configure uma região de tarefa de ajuste
Os dados do utilizador, como o conjunto de dados transformado e o modelo otimizado, são armazenados na região da tarefa de otimização. Durante o ajuste, a computação pode ser transferida para outras regiões US
ou EU
para aceleradores disponíveis. A transferência é transparente para os utilizadores.
Se usar o SDK do Vertex AI, pode especificar a região na inicialização. Por exemplo:
import vertexai vertexai.init(project='myproject', location='us-central1')
Se criar uma tarefa de ajuste fino supervisionado enviando um pedido POST através do método
tuningJobs.create
, usa o URL para especificar a região onde a tarefa de ajuste é executada. Por exemplo, no URL seguinte, especifica uma região substituindo ambas as instâncias deTUNING_JOB_REGION
pela região onde a tarefa é executada.https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
Se usar a Google Cloud consola, pode selecionar o nome da região no campo pendente Região na página Detalhes do modelo. Esta é a mesma página onde seleciona o modelo base e um nome de modelo otimizado.
Avaliação de modelos otimizados
Pode avaliar os modelos otimizados das seguintes formas:
Métricas de ajuste e validação: avalie o modelo ajustado usando métricas de ajuste e validação após a conclusão da tarefa de ajuste.
Avaliação integrada com o serviço de avaliação de IA gen (pré-visualização): configure tarefas de otimização para executar automaticamente avaliações através do serviço de avaliação de IA gen durante a otimização. As seguintes interfaces, modelos e regiões são suportados para a integração da otimização com o serviço de avaliação de IA gen:
Interfaces suportadas: SDK Google Gen AI e API REST.
Modelos suportados:
gemini-2.5-pro
,gemini-2.5-flash
egemini-2.5-flash-lite
.Regiões suportadas: para ver uma lista das regiões suportadas, consulte o artigo Regiões suportadas.
Quota
A quota é aplicada ao número de tarefas de ajuste simultâneas. Todos os projetos incluem
uma quota predefinida para executar, pelo menos, um trabalho de otimização. Esta é uma quota global,
partilhada em todas as regiões disponíveis e modelos suportados. Se quiser executar mais tarefas em simultâneo, tem de pedir quota adicional para Global concurrent tuning jobs
.
Se configurar o serviço de avaliação de IA gen para executar avaliações automaticamente durante o ajuste, consulte as quotas do serviço de avaliação de IA gen.
Preços
Pode encontrar os preços da otimização precisa supervisionada do Gemini aqui: preços do Vertex AI.
O número de tokens de preparação é calculado multiplicando o número de tokens no conjunto de dados de preparação pelo número de épocas. Após a otimização, os custos de inferência (pedido de previsão) do modelo otimizado continuam a aplicar-se. O preço da inferência é o mesmo para cada versão estável do Gemini. Para mais informações, consulte o artigo Versões estáveis do modelo Gemini disponíveis.
Se configurar o serviço de avaliação de IA gen para ser executado automaticamente durante o ajuste, as avaliações são cobradas como tarefas de previsão em lote. Para mais informações, consulte a secção Preços.
O que se segue?
- Prepare um conjunto de dados de otimização supervisionada.
- Saiba como implementar um modelo do Gemini otimizado.