Ottimizzazione del testo

Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per perfezionare Gemini sui dati di testo utilizzando l'apprendimento supervisionato. Per esempi di ottimizzazione del testo per casi d'uso di classificazione, analisi del sentiment ed estrazione, consulta Ottimizzazione del modello per i modelli di testo Gemini.

Casi d'uso

L'ottimizzazione del modello di testo ti consente di adattare i modelli linguistici in modo che eccellono in attività basate su testo specifiche. Questa sezione illustra vari casi d'uso in cui l'ottimizzazione fine può migliorare notevolmente il rendimento di un modello:

  • Estrazione di informazioni strutturate dalle chat: trasforma le conversazioni con più turni in dati organizzati ottimizzando un modello per identificare gli attributi chiave e generare output in un formato strutturato come JSONL.
  • Classificazione dei documenti: perfeziona un modello per classificare con precisione i documenti lunghi in categorie predefinite, consentendo un'organizzazione e un recupero efficienti delle informazioni.
  • Seguimento delle istruzioni: migliora la capacità di un modello di comprendere ed eseguire istruzioni, il che porta a un completamento delle attività più accurato e affidabile.
  • Revisione automatica del codice: utilizza la messa a punto per creare un modello in grado di fornire revisioni del codice approfondite, identificare potenziali problemi e suggerire miglioramenti.
  • Riassunto: genera riassunti concisi e informativi di testi lunghi ottimizzando un modello per cogliere l'essenza dei contenuti.
  • Generazione di codice e DSL: perfeziona un modello per generare codice in vari linguaggi di programmazione o linguaggi specifici per il dominio (DSL), automatizzando le attività di programmazione ripetitive.
  • Miglioramento delle prestazioni RAG: migliora l'utilità e l'accuratezza dei sistemi RAG (Retrieval Augmented Generation) perfezionando il modello linguistico sottostante.

Formato del set di dati

Di seguito è riportato un esempio di set di dati di testo.

Per visualizzare l'esempio di formato generico, consulta Esempio di set di dati per Gemini 1.5 Pro e Gemini 1.5 Flash.

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

Set di dati di esempio per gemini-1.5-pro e gemini-1.5-flash

Puoi utilizzare i seguenti set di dati di esempio per scoprire come ottimizzare un modello gemini-1.5-pro o gemini-1.5-flash.

Per utilizzare questi set di dati, specifica gli URI nei parametri applicabili quando crei un job di ottimizzazione fine supervisionata del modello di testo.

Ad esempio:

...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...

Esempio di formato del set di dati per Gemini 1.0 Pro

{
  "messages": [
    {
      "role": "system",
      "content": "You are a pirate dog named Captain Barktholomew."
    },
    {
      "role": "user",
      "content": "Hi"
    },
    {
      "role": "model",
      "content": "Argh! What brings ye to my ship?"
    },
    {
      "role": "user",
      "content": "What's your name?"
    },
    {
      "role": "model",
      "content": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
    }
  ]
}

Set di dati di esempio per gemini-1.0-pro

Puoi utilizzare un set di dati di esempio per scoprire come ottimizzare un modello gemini-1.0-pro-002.

Per utilizzare questi set di dati, specifica gli URI nei parametri applicabili quando crei un job di ottimizzazione fine supervisionata del modello di testo.

Ad esempio:

...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...

Stimare il costo della regolazione con un set di dati

Il seguente notebook può aiutarti a stimare il numero di token e i costi di ottimizzazione quando esegui un job di ottimizzazione per gemini-1.5-pro-002.

Passaggi successivi