Prepare dados de ajuste fino supervisionado para modelos de GML de tradução

Este documento descreve como definir um conjunto de dados de ajuste preciso supervisionado para um modelo de LLM de tradução. Pode ajustar os tipos de dados de texto.

Acerca dos conjuntos de dados de otimização supervisionada

Um conjunto de dados de otimização supervisionada é usado para otimizar um modelo pré-preparado para um domínio específico. Os dados de entrada devem ser semelhantes ao que espera que o modelo encontre na utilização no mundo real. As etiquetas de saída devem representar as respostas ou os resultados corretos para cada entrada.

Conjunto de dados de preparação

Para otimizar um modelo, fornece um conjunto de dados de preparação. Para obter os melhores resultados, recomendamos que comece com 100 exemplos. Pode aumentar a escala até milhares de exemplos, se necessário. A qualidade do conjunto de dados é muito mais importante do que a quantidade.

Limitações:

  • Máximo de tokens de entrada e saída por exemplo: 1000
  • Tamanho máximo do ficheiro do conjunto de dados de preparação: até 1 GB para JSONL.

Conjunto de dados de validação

Recomendamos vivamente que faculte um conjunto de dados de validação. Um conjunto de dados de validação ajuda a medir a eficácia de uma tarefa de ajuste.

Limitações:

  • Máximo de tokens de entrada e saída por exemplo: 1000
  • Número máximo de exemplos no conjunto de dados de validação: 1024
  • Tamanho máximo do ficheiro do conjunto de dados de preparação: até 1 GB para JSONL.

Formato do conjunto de dados

O conjunto de dados de ajuste do modelo tem de estar no formato JSON Lines (JSONL), em que cada linha contém um único exemplo de ajuste. Antes de otimizar o modelo, tem de carregar o conjunto de dados para um contentor do Cloud Storage. Certifique-se de que faz o carregamento para us-central1.

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

Parâmetros

O exemplo contém dados com os seguintes parâmetros:

Parâmetros

contents

Obrigatório: Content

O conteúdo da conversa atual com o modelo.

Para consultas de uma única interação, trata-se de uma única instância.

Exemplo de conjunto de dados para translation-llm-002

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

Índice

O tipo de dados estruturados base que contém conteúdo multipartes de uma mensagem.

Esta classe é constituída por duas propriedades principais: role e parts. A propriedade role indica o indivíduo que produz o conteúdo, enquanto a propriedade parts contém vários elementos, cada um representando um segmento de dados numa mensagem.

Parâmetros

role

Opcional: string

A identidade da entidade que cria a mensagem. Os seguintes valores são suportados:

  • user: isto indica que a mensagem é enviada por uma pessoa real, normalmente uma mensagem gerada pelo utilizador.
  • model: isto indica que a mensagem é gerada pelo modelo.

parts

part

Uma lista de partes ordenadas que compõem uma única mensagem.

Para ver os limites das entradas, como o número máximo de tokens ou o número de imagens, consulte as especificações do modelo na página Modelos Google.

Para calcular o número de tokens no seu pedido, consulte o artigo Obtenha a contagem de tokens.

Peças

Um tipo de dados que contém conteúdo multimédia que faz parte de uma mensagem Content multipartes.

Parâmetros

text

Opcional: string

Um comando de texto ou um fragmento do código.

Carregue conjuntos de dados de ajuste para o Cloud Storage

Para executar uma tarefa de otimização, tem de carregar um ou mais conjuntos de dados para um contentor do Cloud Storage. Pode criar um novo contentor do Cloud Storage ou usar um existente para armazenar ficheiros de conjuntos de dados. A região do contentor não é importante, mas recomendamos que use um contentor que esteja no mesmo Google Cloud projeto onde planeia otimizar o modelo.

Depois de o contentor estar pronto, carregue o ficheiro do conjunto de dados para o contentor.

Exemplos de notebooks para preparar dados

Seguem-se alguns exemplos de blocos de notas do Colab para ajudar a começar.

Conjunto de dados do AutoML Translation

Se já tiver conjuntos de dados de tradução carregados para o AutoML Translation, pode seguir o exemplo do Colab para os exportar para a otimização.

Logótipo do Google Colaboratory
Executar no Colab
Logótipo do Google Cloud Colab Enterprise
Executar no Colab Enterprise
Logótipo do GitHub
Ver no GitHub

Conjunto de dados local

Se tiver os seus dados num formato TSV, CSV ou TMX localmente, pode carregá-los para o Colab para otimização.

Logótipo do Google Colaboratory
Executar no Colab
Logótipo do Google Cloud Colab Enterprise
Executar no Colab Enterprise
Logótipo do GitHub
Ver no GitHub

O que se segue?