Acerca da otimização supervisionada para modelos do Gemini

O ajuste fino supervisionado é uma boa opção quando tem uma tarefa bem definida com dados etiquetados disponíveis. É particularmente eficaz para aplicações específicas do domínio em que o idioma ou o conteúdo diferem significativamente dos dados com os quais o modelo grande foi originalmente preparado. Pode ajustar os tipos de dados de texto, imagem, áudio e documento.

O ajuste fino supervisionado adapta o comportamento do modelo com um conjunto de dados etiquetado. Este processo ajusta as ponderações do modelo para minimizar a diferença entre as respetivas previsões e as etiquetas reais. Por exemplo, pode melhorar o desempenho do modelo para os seguintes tipos de tarefas:

  • Classificação
  • Resumo
  • Respostas a perguntas extrativas
  • Chat

Para uma discussão dos principais exemplos de utilização da otimização, consulte a publicação no blogue Centenas de organizações estão a otimizar os modelos Gemini. Seguem-se os exemplos de utilização favoritos.

Para saber mais, consulte o artigo Quando usar o ajuste fino supervisionado para o Gemini.

Modelos suportados

Os seguintes modelos Gemini suportam o ajuste fino supervisionado:

Para modelos que suportam o raciocínio, sugerimos que defina o orçamento de raciocínio como desativado ou o valor mais baixo. Isto pode melhorar o desempenho e reduzir os custos das tarefas otimizadas. Durante o ajuste fino supervisionado, o modelo aprende com os dados de preparação e omite o processo de reflexão. Por conseguinte, o modelo otimizado resultante pode realizar tarefas otimizadas de forma eficaz sem um orçamento de raciocínio.

Limitações

Gemini 2.5 Flash
Gemini 2.5 Flash-Lite

Especificação Valor
Número máximo de tokens de entrada e saída para o treino 131 072
Tokens de publicação de entrada e saída máximos Igual ao modelo base do Gemini
Tamanho máximo do conjunto de dados de validação 5000 exemplos
Tamanho máximo do ficheiro do conjunto de dados de preparação 1 GB para JSONL
Tamanho máximo do conjunto de dados de preparação 1 milhão de exemplos apenas de texto ou 300 mil exemplos multimodais
Tamanho do transformador Os valores suportados são 1, 2, 4, 8 e 16

Gemini 2.5 Pro

Especificação Valor
Número máximo de tokens de entrada e saída para o treino 131 072
Tokens de publicação de entrada e saída máximos Igual ao modelo base do Gemini
Tamanho máximo do conjunto de dados de validação 5000 exemplos
Tamanho máximo do ficheiro do conjunto de dados de preparação 1 GB para JSONL
Tamanho máximo do conjunto de dados de preparação 1 milhão de exemplos apenas de texto ou 300 mil exemplos multimodais
Tamanho do transformador Os valores suportados são 1, 2, 4 e 8

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

Especificação Valor
Número máximo de tokens de entrada e saída para o treino 131 072
Tokens de publicação de entrada e saída máximos Igual ao modelo base do Gemini
Tamanho máximo do conjunto de dados de validação 5000 exemplos
Tamanho máximo do ficheiro do conjunto de dados de preparação 1 GB para JSONL
Tamanho máximo do conjunto de dados de preparação 1 milhão de exemplos apenas de texto ou 300 mil exemplos multimodais
Tamanho do transformador Os valores suportados são 1, 2, 4 e 8

Problemas conhecidos

  • A aplicação da geração controlada ao enviar pedidos de inferência para modelos Gemini otimizados pode resultar numa diminuição da qualidade do modelo devido ao desalinhamento de dados durante a otimização e o tempo de inferência. Durante o ajuste, a geração controlada não é aplicada, pelo que o modelo ajustado não consegue processar bem a geração controlada no momento da inferência. O ajuste fino supervisionado personaliza eficazmente o modelo para gerar resultados estruturados. Por isso, não precisa de aplicar a geração controlada quando faz pedidos de inferência em modelos otimizados.

Exemplos de utilização da otimização detalhada supervisionada

Os modelos de base funcionam bem quando a saída ou a tarefa esperada pode ser definida de forma clara e concisa num comando, e o comando produz consistentemente a saída esperada. Se quiser que um modelo aprenda algo específico ou de nicho que se desvie dos padrões gerais, pode considerar ajustar esse modelo. Por exemplo, pode usar o ajuste do modelo para ensinar o modelo o seguinte:

  • Estruturas ou formatos específicos para gerar resultados.
  • Comportamentos específicos, como quando fornecer um resultado conciso ou detalhado.
  • Resultados personalizados específicos para tipos de entradas específicos.

Os exemplos seguintes são exemplos de utilização difíceis de captar apenas com instruções de comando:

  • Classificação: a resposta esperada é uma palavra ou uma expressão específica.

    Ajustar o modelo pode ajudar a impedir que este gere respostas detalhadas.

  • Resumo: o resumo segue um formato específico. Por exemplo, pode ter de remover informações de identificação pessoal (IIP) num resumo do chat.

    Este formato de substituição dos nomes dos oradores por #Person1 e #Person2 é difícil de descrever, e o modelo base pode não produzir naturalmente uma resposta deste tipo.

  • Respostas a perguntas extrativas: a pergunta é sobre um contexto e a resposta é uma subcadeia de carateres do contexto.

    A resposta "Último Máximo Glaciar" é uma expressão específica do contexto.

  • Chat: tem de personalizar a resposta do modelo para seguir um perfil, uma função ou um personagem.

Também pode otimizar um modelo nas seguintes situações:

  • Os comandos não estão a produzir os resultados esperados com consistência suficiente.
  • A tarefa é demasiado complicada para ser definida num comando. Por exemplo, quer que o modelo faça a clonagem de comportamento para um comportamento difícil de articular num comando.
  • Tem intuições complexas sobre uma tarefa que são difíceis de formalizar num comando.
  • Quer reduzir o comprimento do contexto removendo os exemplos de aprendizagem com poucos exemplos.

Configure uma região de tarefa de ajuste

Os dados do utilizador, como o conjunto de dados transformado e o modelo otimizado, são armazenados na região da tarefa de otimização. Durante o ajuste, a computação pode ser transferida para outras regiões US ou EU para aceleradores disponíveis. A transferência é transparente para os utilizadores.

  • Se usar o SDK do Vertex AI, pode especificar a região na inicialização. Por exemplo:

    import vertexai
    vertexai.init(project='myproject', location='us-central1')
    
  • Se criar uma tarefa de ajuste fino supervisionado enviando um pedido POST através do método tuningJobs.create, usa o URL para especificar a região onde a tarefa de ajuste é executada. Por exemplo, no URL seguinte, especifica uma região substituindo ambas as instâncias de TUNING_JOB_REGION pela região onde a tarefa é executada.

     https://TUNING_JOB_REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/TUNING_JOB_REGION/tuningJobs
    
  • Se usar a Google Cloud consola, pode selecionar o nome da região no campo pendente Região na página Detalhes do modelo. Esta é a mesma página onde seleciona o modelo base e um nome de modelo otimizado.

Avaliação de modelos otimizados

Pode avaliar os modelos otimizados das seguintes formas:

  • Métricas de ajuste e validação: avalie o modelo ajustado usando métricas de ajuste e validação após a conclusão da tarefa de ajuste.

  • Avaliação integrada com o serviço de avaliação de IA gen (pré-visualização): configure tarefas de otimização para executar automaticamente avaliações através do serviço de avaliação de IA gen durante a otimização. As seguintes interfaces, modelos e regiões são suportados para a integração da otimização com o serviço de avaliação de IA gen:

    • Interfaces suportadas: SDK Google Gen AI e API REST.

    • Modelos suportados: gemini-2.5-pro, gemini-2.5-flash e gemini-2.5-flash-lite.

    • Regiões suportadas: para ver uma lista das regiões suportadas, consulte o artigo Regiões suportadas.

Quota

A quota é aplicada ao número de tarefas de ajuste simultâneas. Todos os projetos incluem uma quota predefinida para executar, pelo menos, um trabalho de otimização. Esta é uma quota global, partilhada em todas as regiões disponíveis e modelos suportados. Se quiser executar mais tarefas em simultâneo, tem de pedir quota adicional para Global concurrent tuning jobs.

Se configurar o serviço de avaliação de IA gen para executar avaliações automaticamente durante o ajuste, consulte as quotas do serviço de avaliação de IA gen.

Preços

Pode encontrar os preços da otimização precisa supervisionada do Gemini aqui: preços do Vertex AI.

O número de tokens de preparação é calculado multiplicando o número de tokens no conjunto de dados de preparação pelo número de épocas. Após a otimização, os custos de inferência (pedido de previsão) do modelo otimizado continuam a aplicar-se. O preço da inferência é o mesmo para cada versão estável do Gemini. Para mais informações, consulte o artigo Versões estáveis do modelo Gemini disponíveis.

Se configurar o serviço de avaliação de IA gen para ser executado automaticamente durante o ajuste, as avaliações são cobradas como tarefas de previsão em lote. Para mais informações, consulte a secção Preços.

O que se segue?