Este documento descreve como definir um conjunto de dados de ajuste preciso supervisionado para um modelo de LLM de tradução. Pode ajustar os tipos de dados de texto.
Acerca dos conjuntos de dados de otimização supervisionada
Um conjunto de dados de otimização supervisionada é usado para otimizar um modelo pré-preparado para um domínio específico. Os dados de entrada devem ser semelhantes ao que espera que o modelo encontre na utilização no mundo real. As etiquetas de saída devem representar as respostas ou os resultados corretos para cada entrada.
Conjunto de dados de preparação
Para otimizar um modelo, fornece um conjunto de dados de preparação. Para obter os melhores resultados, recomendamos que comece com 100 exemplos. Pode aumentar a escala até milhares de exemplos, se necessário. A qualidade do conjunto de dados é muito mais importante do que a quantidade.
Limitações:
- Máximo de tokens de entrada e saída por exemplo: 1000
- Tamanho máximo do ficheiro do conjunto de dados de preparação: até 1 GB para JSONL.
Conjunto de dados de validação
Recomendamos vivamente que faculte um conjunto de dados de validação. Um conjunto de dados de validação ajuda a medir a eficácia de uma tarefa de ajuste.
Limitações:
- Máximo de tokens de entrada e saída por exemplo: 1000
- Número máximo de exemplos no conjunto de dados de validação: 1024
- Tamanho máximo do ficheiro do conjunto de dados de preparação: até 1 GB para JSONL.
Formato do conjunto de dados
O conjunto de dados de ajuste do modelo tem de estar no formato JSON Lines (JSONL), em que cada linha contém um único exemplo de ajuste. Antes de otimizar o modelo, tem de carregar o conjunto de dados para um contentor do Cloud Storage. Certifique-se de que faz o carregamento para us-central1.
{
"contents": [
{
"role": string,
"parts": [
{
"text": string,
}
]
}
]
}
Parâmetros
O exemplo contém dados com os seguintes parâmetros:
Parâmetros | |
---|---|
|
Obrigatório: O conteúdo da conversa atual com o modelo. Para consultas de uma única interação, trata-se de uma única instância. |
Exemplo de conjunto de dados para translation-llm-002
{
"contents": [
{
"role": "user",
"parts": [
{
"text": "English: Hello. Spanish:",
}
]
}
{
"role": "model"",
"parts": [
{
"text": "Hola.",
}
]
}
]
}
Índice
O tipo de dados estruturados base que contém conteúdo multipartes de uma mensagem.
Esta classe é constituída por duas propriedades principais: role
e parts
. A propriedade role
indica o indivíduo que produz o conteúdo, enquanto a propriedade parts
contém vários elementos, cada um representando um segmento de dados numa mensagem.
Parâmetros | |
---|---|
|
Opcional: A identidade da entidade que cria a mensagem. Os seguintes valores são suportados:
|
|
Uma lista de partes ordenadas que compõem uma única mensagem. Para ver os limites das entradas, como o número máximo de tokens ou o número de imagens, consulte as especificações do modelo na página Modelos Google. Para calcular o número de tokens no seu pedido, consulte o artigo Obtenha a contagem de tokens. |
Peças
Um tipo de dados que contém conteúdo multimédia que faz parte de uma mensagem Content
multipartes.
Parâmetros | |
---|---|
|
Opcional: Um comando de texto ou um fragmento do código. |
Carregue conjuntos de dados de ajuste para o Cloud Storage
Para executar uma tarefa de otimização, tem de carregar um ou mais conjuntos de dados para um contentor do Cloud Storage. Pode criar um novo contentor do Cloud Storage ou usar um existente para armazenar ficheiros de conjuntos de dados. A região do contentor não é importante, mas recomendamos que use um contentor que esteja no mesmo Google Cloud projeto onde planeia otimizar o modelo.
Depois de o contentor estar pronto, carregue o ficheiro do conjunto de dados para o contentor.
Exemplos de notebooks para preparar dados
Seguem-se alguns exemplos de blocos de notas do Colab para ajudar a começar.
Conjunto de dados do AutoML Translation
Se já tiver conjuntos de dados de tradução carregados para o AutoML Translation, pode seguir o exemplo do Colab para os exportar para a otimização.
![]() Executar no Colab |
Executar no Colab Enterprise |
![]() Ver no GitHub |
Conjunto de dados local
Se tiver os seus dados num formato TSV, CSV ou TMX localmente, pode carregá-los para o Colab para otimização.
![]() Executar no Colab |
Executar no Colab Enterprise |
![]() Ver no GitHub |
O que se segue?
- Execute uma tarefa de otimização supervisionada.