Esta página foi traduzida pela API Cloud Translation.

Prepare dados de ajuste fino supervisionado para modelos de GML de tradução

Este documento descreve como definir um conjunto de dados de ajuste preciso supervisionado para um modelo de LLM de tradução. Pode ajustar os tipos de dados de texto.

Acerca dos conjuntos de dados de otimização supervisionada

Um conjunto de dados de otimização supervisionada é usado para otimizar um modelo pré-preparado para um domínio específico. Os dados de entrada devem ser semelhantes ao que espera que o modelo encontre na utilização no mundo real. As etiquetas de saída devem representar as respostas ou os resultados corretos para cada entrada.

Conjunto de dados de preparação

Para otimizar um modelo, fornece um conjunto de dados de preparação. Para obter os melhores resultados, recomendamos que comece com 100 exemplos. Pode aumentar a escala até milhares de exemplos, se necessário. A qualidade do conjunto de dados é muito mais importante do que a quantidade.

Limitações:

Máximo de tokens de entrada e saída por exemplo: 1000
Tamanho máximo do ficheiro do conjunto de dados de preparação: até 1 GB para JSONL.

Conjunto de dados de validação

Recomendamos vivamente que faculte um conjunto de dados de validação. Um conjunto de dados de validação ajuda a medir a eficácia de uma tarefa de ajuste.

Limitações:

Máximo de tokens de entrada e saída por exemplo: 1000
Número máximo de exemplos no conjunto de dados de validação: 1024
Tamanho máximo do ficheiro do conjunto de dados de preparação: até 1 GB para JSONL.

Formato do conjunto de dados

O conjunto de dados de ajuste do modelo tem de estar no formato JSON Lines (JSONL), em que cada linha contém um único exemplo de ajuste. Antes de otimizar o modelo, tem de carregar o conjunto de dados para um contentor do Cloud Storage. Certifique-se de que faz o carregamento para us-central1.

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

Parâmetros

O exemplo contém dados com os seguintes parâmetros:

Parâmetros

Parâmetros
`contents`	Obrigatório: `Content` O conteúdo da conversa atual com o modelo. Para consultas de uma única interação, trata-se de uma única instância.

contents

Obrigatório: Content

O conteúdo da conversa atual com o modelo.

Para consultas de uma única interação, trata-se de uma única instância.

Exemplo de conjunto de dados para `translation-llm-002`

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

Índice

O tipo de dados estruturados base que contém conteúdo multipartes de uma mensagem.

Esta classe é constituída por duas propriedades principais: role e parts. A propriedade role indica o indivíduo que produz o conteúdo, enquanto a propriedade parts contém vários elementos, cada um representando um segmento de dados numa mensagem.

Parâmetros

Parâmetros
`role`	Opcional: `string` A identidade da entidade que cria a mensagem. Os seguintes valores são suportados: `user`: isto indica que a mensagem é enviada por uma pessoa real, normalmente uma mensagem gerada pelo utilizador. `model`: isto indica que a mensagem é gerada pelo modelo.
`parts`	`part` Uma lista de partes ordenadas que compõem uma única mensagem. Para ver os limites das entradas, como o número máximo de tokens ou o número de imagens, consulte as especificações do modelo na página Modelos Google. Para calcular o número de tokens no seu pedido, consulte o artigo Obtenha a contagem de tokens.

role

Opcional: string

A identidade da entidade que cria a mensagem. Os seguintes valores são suportados:

user: isto indica que a mensagem é enviada por uma pessoa real, normalmente uma mensagem gerada pelo utilizador.
model: isto indica que a mensagem é gerada pelo modelo.

parts

part

Uma lista de partes ordenadas que compõem uma única mensagem.

Para ver os limites das entradas, como o número máximo de tokens ou o número de imagens, consulte as especificações do modelo na página Modelos Google.

Para calcular o número de tokens no seu pedido, consulte o artigo Obtenha a contagem de tokens.

Peças

Um tipo de dados que contém conteúdo multimédia que faz parte de uma mensagem Content multipartes.

Parâmetros

Parâmetros
`text`	Opcional: `string` Um comando de texto ou um fragmento do código.

text

Opcional: string

Um comando de texto ou um fragmento do código.

Carregue conjuntos de dados de ajuste para o Cloud Storage

Para executar uma tarefa de otimização, tem de carregar um ou mais conjuntos de dados para um contentor do Cloud Storage. Pode criar um novo contentor do Cloud Storage ou usar um existente para armazenar ficheiros de conjuntos de dados. A região do contentor não é importante, mas recomendamos que use um contentor que esteja no mesmo Google Cloud projeto onde planeia otimizar o modelo.

Depois de o contentor estar pronto, carregue o ficheiro do conjunto de dados para o contentor.