Visão geral do ajuste de modelos

O ajuste de um modelo básico pode melhorar o desempenho. Os modelos de fundação são treinados para propósitos gerais e, às vezes, não executam tarefas tão bem quanto você gostaria. Isso pode acontecer porque as tarefas que você quer que o modelo execute são tarefas especializadas que são difíceis de ensinar um modelo apenas usando o design de comandos.

Nesses casos, é possível usar o ajuste de modelo para melhorar o desempenho de um modelo em tarefas específicas. O ajuste do modelo também pode ajudá-lo a aderir a requisitos de saída específicos quando as instruções não são suficientes. Nesta página, fornecemos uma visão geral do ajuste de modelos, descreve as opções disponíveis na Vertex AI e ajuda a determinar quando cada opção de ajuste precisa ser usada.

Visão geral do ajuste de modelos

O ajuste de modelos fornece um modelo com um conjunto de dados de treinamento que contém muitos exemplos de uma tarefa exclusiva. Para tarefas únicas ou de nicho, é possível conseguir melhorias significativas no desempenho do modelo ajustando o modelo em um número modesto de exemplos. Depois de ajustar um modelo, menos exemplos são necessários nos prompts.

A Vertex AI dá suporte aos seguintes métodos para ajustar modelos de fundação:

Gemini

Ajuste supervisionado

O ajuste supervisionado de modelos do Gemini melhora o desempenho do modelo ao ensinar uma nova habilidade. Dados que contêm centenas de exemplos rotulados são usados para ensinar o modelo a imitar um comportamento ou tarefa desejado. Cada exemplo rotulado demonstra o que você quer que o modelo produza durante a inferência.

Ao executar um job de ajuste, o modelo aprende outros parâmetros que o ajudam a codificar as informações necessárias para executar a tarefa desejada ou aprender o comportamento desejado. Esses parâmetros são usados durante a inferência. A saída do job de ajuste é um novo modelo que combina os parâmetros recém-aprendidos com o modelo original.

O ajuste supervisionado de um modelo de texto é uma boa opção quando a saída do modelo não é complexa e é relativamente fácil de definir. O ajuste supervisionado é recomendado para classificação, análise de sentimento, extração de entidade, resumo de conteúdo não complexo e gravação de consultas específicas de domínio. Para modelos de código, o ajuste supervisionado é a única opção.

PaLM

Ajuste supervisionado

O ajuste supervisionado de modelos PaLM melhora o desempenho do modelo ao ensinar uma nova habilidade. Dados que contêm centenas de exemplos rotulados são usados para ensinar o modelo a imitar um comportamento ou uma tarefa pretendida. Cada exemplo rotulado demonstra o que você quer que o modelo produza durante a inferência.

Ao executar um job de ajuste, o modelo aprende outros parâmetros que o ajudam a codificar as informações necessárias para executar a tarefa desejada ou aprender o comportamento desejado. Esses parâmetros são usados durante a inferência. A saída do job de ajuste é um novo modelo que combina os parâmetros recém-aprendidos com o modelo original.

O ajuste supervisionado de um modelo de texto é uma boa opção quando a saída do modelo não é complexa e é relativamente fácil de definir. O ajuste supervisionado é recomendado para classificação, análise de sentimento, extração de entidade, resumo de conteúdo não complexo e gravação de consultas específicas de domínio. Para modelos de código, o ajuste supervisionado é a única opção.

Ajuste do aprendizado por reforço com feedback humano (RLHF)

O aprendizado por reforço com feedback humano (RLHF) para modelos PaLM usa preferências especificadas por humanos para otimizar um modelo de linguagem. Ao usar o feedback humano para ajustar os modelos, é possível alinhá-los melhor com as preferências das pessoas e reduzir resultados nocivos em cenários em que as pessoas têm incertezas complexas sobre uma tarefa. Por exemplo, o RLHF pode ajudar com uma tarefa ambígua, como escrever um poema sobre o oceano, oferecendo a uma pessoa dois poemas sobre o oceano e permitindo que ela escolha o preferido.

O ajuste do RLHF é uma boa opção quando a saída do modelo é complexa e não é facilmente alcançada com o ajuste supervisionado. O ajuste de RLHF é recomendado para responder a perguntas, resumir conteúdo complexo e criar conteúdo, como uma reescrita. Os modelos de código não oferecem suporte ao ajuste de RLHF.

Destilação de modelo

A destilação de modelo para PaLM é uma boa opção se você tem um modelo grande que quer reduzir sem prejudicar a capacidade dele de fazer o que você pretende. O processo de destilação de um modelo cria um novo modelo treinado menor, que é mais barato de usar e tem menor latência do que o original.

Recomendações da LoRA e QLoRA para LLMs

Também é possível usar a adaptação de classificação baixa (LoRA) de modelos de linguagem grandes para ajustar os modelos de LLM da Vertex AI.

Esta seção fornece recomendações para usar a LoRA e a versão dela com consumo de memória mais eficiente, a QLoRA.

Recomendações de ajuste da LoRA

A seguinte tabela resume as recomendações para ajustar LLMs usando a LoRA ou a QLoRA:

Especificação Recomendações Detalhes
Eficiência de memória da GPU QLoRA A QLoRA apresenta um pico de uso da memória da GPU cerca de 75% menor em comparação à LoRA.
Velocidade LoRA A LoRA é cerca de 66% mais rápida que a QLoRA em termos de velocidade de ajuste.
Economia LoRA Embora os dois métodos sejam relativamente baratos, a LoRA é até 40% mais barata que a QLoRA.
Maior comprimento máximo de sequência QLoRA Um maior comprimento máximo de sequência aumenta o consumo de memória da GPU. A QLoRA usa menos memória da GPU. Por isso, aceita maiores comprimentos de sequência.
Melhorias em termos de acurácia Igual Os dois métodos apresentam melhorias semelhantes em termos de acurácia.
Maior tamanho do lote QLoRA A QLoRA aceita tamanhos de lote muito maiores. Por exemplo, veja a seguir recomendações de tamanho do lote para ajustar o openLLaMA-7B nas seguintes GPUs:
  • 1 x A100 40G:
    • LoRA: é recomendável o tamanho do lote de 2.
    • QLoRA: é recomendável o tamanho do lote de 24.
  • 1 x L4:
    • LoRA: o tamanho do lote de 1 falha com um erro de falta de memória (OOM, na sigla em inglês).
    • QLoRA: é recomendável o tamanho do lote de 12.
  • 1 x V100:
    • LoRA: o tamanho do lote de 1 falha com um erro de falta de memória (OOM, na sigla em inglês).
    • QLoRA: é recomendável o tamanho do lote de 8.

A seguir