Preparar dados de ajuste fino supervisionados para modelos de LLM de tradução

Neste documento, descrevemos como definir um conjunto de dados de ajuste fino supervisionado para um modelo de LLM de tradução. Você pode ajustar os tipos de dados de texto.

Sobre conjuntos de dados de ajuste fino supervisionados

Um conjunto de dados de ajuste fino supervisionado é usado para ajustar um modelo pré-treinado para um domínio específico. Os dados de entrada precisam ser semelhantes ao que você espera que o modelo encontre no uso real. Os rótulos de saída precisam representar as respostas ou os resultados corretos para cada entrada.

Conjunto de dados de treinamento

Para ajustar um modelo, você fornece um conjunto de dados de treinamento. Para melhores resultados, recomendamos que você comece com 100 exemplos. Você pode escalonar verticalmente para milhares de exemplos, se necessário. A qualidade do conjunto de dados é muito mais importante do que a quantidade.

Limitações:

  • Máximo de tokens de entrada e saída por exemplo: 1.000
  • Tamanho máximo do arquivo do conjunto de dados de treinamento: até 1 GB para JSONL.

Conjunto de dados de validação

Recomendamos que você forneça um conjunto de dados de validação. Um conjunto de dados de validação ajuda a medir a eficácia de um job de ajuste.

Limitações:

  • Máximo de tokens de entrada e saída por exemplo: 1.000
  • Número máximo de exemplos no conjunto de dados de validação: 1.024
  • Tamanho máximo do arquivo do conjunto de dados de treinamento: até 1 GB para JSONL.

Formato do conjunto de dados

O conjunto de dados de ajuste de modelos precisa estar no formato linhas JSON (JSONL) em que cada linha contém um único exemplo de ajuste. Antes de ajustar o modelo, faça upload do conjunto de dados para um bucket do Cloud Storage. Faça o upload para us-central1.

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

Parâmetros

O exemplo contém dados com os seguintes parâmetros:

Parâmetros

contents

Obrigatório: Content

O conteúdo da conversa atual com o modelo.

Para consultas de turno único, esta é uma instância única.

Exemplo de conjunto de dados para translation-llm-002

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

Conteúdo

O tipo de dados estruturados de base que contém várias partes de uma mensagem.

Essa classe consiste em duas properties principais: role e parts. A propriedade role indica o indivíduo que produz o conteúdo, enquanto a propriedade parts contém vários elementos, cada um representando um segmento de dados em uma mensagem.

Parâmetros

role

Opcional: string

A identidade da entidade que cria a mensagem. Os valores a seguir são compatíveis:

  • user: indica que a mensagem é enviada por uma pessoa real, geralmente uma mensagem gerada pelo usuário.
  • model: indica que a mensagem é gerada pelo modelo.

parts

part

Uma lista de partes ordenadas que compõem uma única mensagem.

Para ver os limites das entradas, como o número máximo de tokens ou o número de imagens, consulte as especificações do modelo na página Modelos do Google.

Para calcular o número de tokens na solicitação, consulte Receber contagem de tokens.

Partes

Um tipo de dados que contém mídia que faz parte de uma mensagem Content de várias partes.

Parâmetros

text

Opcional: string

Um comando de texto ou snippet de código.

Fazer upload de conjuntos de dados de ajuste para o Cloud Storage

Para executar um job de ajuste, é preciso fazer upload de um ou mais conjuntos de dados para um bucket do Cloud Storage. É possível criar um novo bucket do Cloud Storage ou usar um existente para armazenar arquivos de conjuntos de dados. A região do bucket não importa, mas recomendamos que você use um bucket que esteja no mesmo projeto do Google Cloud em que planeja executar o ajuste do modelo.

Quando o bucket estiver pronto, faça o upload do arquivo do conjunto de dados para o bucket.

A seguir