O ajuste de um modelo básico pode melhorar o desempenho. Os modelos de fundação são treinados para propósitos gerais e, às vezes, não executam tarefas tão bem quanto você gostaria. Isso pode acontecer porque as tarefas que você quer que o modelo execute são tarefas especializadas que são difíceis de ensinar um modelo apenas usando o design de comandos.
Nesses casos, é possível usar o ajuste de modelo para melhorar o desempenho de um modelo em tarefas específicas. O ajuste do modelo também pode ajudá-lo a aderir a requisitos de saída específicos quando as instruções não são suficientes. Nesta página, fornecemos uma visão geral do ajuste de modelos, descreve as opções disponíveis na Vertex AI e ajuda a determinar quando cada opção de ajuste precisa ser usada.
Visão geral do ajuste de modelos
O ajuste de modelos fornece um modelo com um conjunto de dados de treinamento que contém muitos exemplos de uma tarefa exclusiva. Para tarefas únicas ou de nicho, é possível conseguir melhorias significativas no desempenho do modelo ajustando o modelo em um número modesto de exemplos. Depois de ajustar um modelo, menos exemplos são necessários nos prompts.
A Vertex AI dá suporte aos seguintes métodos para ajustar modelos de fundação:
Gemini
Ajuste supervisionado
O ajuste supervisionado de modelos do Gemini melhora o desempenho do modelo ao ensinar uma nova habilidade. Dados que contêm centenas de exemplos rotulados são usados para ensinar o modelo a imitar um comportamento ou tarefa desejado. Cada exemplo rotulado demonstra o que você quer que o modelo produza durante a inferência.
Ao executar um job de ajuste, o modelo aprende outros parâmetros que o ajudam a codificar as informações necessárias para executar a tarefa desejada ou aprender o comportamento desejado. Esses parâmetros são usados durante a inferência. A saída do job de ajuste é um novo modelo que combina os parâmetros recém-aprendidos com o modelo original.
O ajuste supervisionado de um modelo de texto é uma boa opção quando a saída do modelo não é complexa e é relativamente fácil de definir. O ajuste supervisionado é recomendado para classificação, análise de sentimento, extração de entidade, resumo de conteúdo não complexo e gravação de consultas específicas de domínio. Para modelos de código, o ajuste supervisionado é a única opção.
PaLM
Ajuste supervisionado
O ajuste supervisionado de modelos PaLM melhora o desempenho do modelo ao ensinar uma nova habilidade. Dados que contêm centenas de exemplos rotulados são usados para ensinar o modelo a imitar um comportamento ou uma tarefa pretendida. Cada exemplo rotulado demonstra o que você quer que o modelo produza durante a inferência.
Ao executar um job de ajuste, o modelo aprende outros parâmetros que o ajudam a codificar as informações necessárias para executar a tarefa desejada ou aprender o comportamento desejado. Esses parâmetros são usados durante a inferência. A saída do job de ajuste é um novo modelo que combina os parâmetros recém-aprendidos com o modelo original.
O ajuste supervisionado de um modelo de texto é uma boa opção quando a saída do modelo não é complexa e é relativamente fácil de definir. O ajuste supervisionado é recomendado para classificação, análise de sentimento, extração de entidade, resumo de conteúdo não complexo e gravação de consultas específicas de domínio. Para modelos de código, o ajuste supervisionado é a única opção.
Ajuste do aprendizado por reforço com feedback humano (RLHF)
O aprendizado por reforço com feedback humano (RLHF) para modelos PaLM usa preferências especificadas por humanos para otimizar um modelo de linguagem. Ao usar o feedback humano para ajustar os modelos, é possível alinhá-los melhor com as preferências das pessoas e reduzir resultados nocivos em cenários em que as pessoas têm incertezas complexas sobre uma tarefa. Por exemplo, o RLHF pode ajudar com uma tarefa ambígua, como escrever um poema sobre o oceano, oferecendo a uma pessoa dois poemas sobre o oceano e permitindo que ela escolha o preferido.
O ajuste do RLHF é uma boa opção quando a saída do modelo é complexa e não é facilmente alcançada com o ajuste supervisionado. O ajuste de RLHF é recomendado para responder a perguntas, resumir conteúdo complexo e criar conteúdo, como uma reescrita. Os modelos de código não oferecem suporte ao ajuste de RLHF.
Destilação de modelo
A destilação de modelo para PaLM é uma boa opção se você tem um modelo grande que quer reduzir sem prejudicar a capacidade dele de fazer o que você pretende. O processo de destilação de um modelo cria um novo modelo treinado menor, que é mais barato de usar e tem menor latência do que o original.
Recomendações da LoRA e QLoRA para LLMs
Também é possível usar a adaptação de classificação baixa (LoRA) de modelos de linguagem grandes para ajustar os modelos de LLM da Vertex AI.
Esta seção fornece recomendações para usar a LoRA e a versão dela com consumo de memória mais eficiente, a QLoRA.
Recomendações de ajuste da LoRA
A seguinte tabela resume as recomendações para ajustar LLMs usando a LoRA ou a QLoRA:
Especificação | Recomendações | Detalhes |
---|---|---|
Eficiência de memória da GPU | QLoRA | A QLoRA apresenta um pico de uso da memória da GPU cerca de 75% menor em comparação à LoRA. |
Velocidade | LoRA | A LoRA é cerca de 66% mais rápida que a QLoRA em termos de velocidade de ajuste. |
Economia | LoRA | Embora os dois métodos sejam relativamente baratos, a LoRA é até 40% mais barata que a QLoRA. |
Maior comprimento máximo de sequência | QLoRA | Um maior comprimento máximo de sequência aumenta o consumo de memória da GPU. A QLoRA usa menos memória da GPU. Por isso, aceita maiores comprimentos de sequência. |
Melhorias em termos de acurácia | Igual | Os dois métodos apresentam melhorias semelhantes em termos de acurácia. |
Maior tamanho do lote | QLoRA | A QLoRA aceita tamanhos de lote muito maiores. Por exemplo, veja a seguir recomendações de tamanho do lote para ajustar o openLLaMA-7B nas seguintes GPUs:
|