Ottimizzazione del testo

Questa pagina fornisce i prerequisiti e le istruzioni dettagliate per perfezionare Gemini sui dati di testo utilizzando l'apprendimento supervisionato. Per esempi di ottimizzazione del testo di classificazione, analisi del sentiment ed estrazione, consulta Ottimizzazione dei modelli per i modelli di testo Gemini.

Casi d'uso

L'ottimizzazione del modello di testo ti consente di adattare i modelli linguistici in modo che eccellono in attività specifiche basate su testo. Questa sezione illustra vari casi d'uso in cui l'ottimizzazione fine può migliorare notevolmente le prestazioni di un modello:

  • Estrazione di informazioni strutturate dalle chat: trasforma le conversazioni multi-turno in dati organizzati ottimizzando un modello per identificare gli attributi chiave e generarli in un formato strutturato come JSONL.
  • Classificazione dei documenti: perfeziona un modello per classificare con precisione i documenti lunghi in categorie predefinite, consentendo un'organizzazione e un recupero efficienti delle informazioni.
  • Istruzioni riportate di seguito: migliora la capacità di un modello di comprendere ed eseguire le istruzioni, portando a un completamento delle attività più accurato e affidabile.
  • Revisione automatica del codice: utilizza l'ottimizzazione per creare un modello in grado di fornire revisioni del codice approfondite, identificare potenziali problemi e suggerire miglioramenti.
  • Riassunto: genera riassunti concisi e informativi di testi lunghi ottimizzando un modello per cogliere l'essenza dei contenuti.
  • Generare codice e DSL: perfeziona un modello per generare codice in vari linguaggi di programmazione o linguaggi specifici per il dominio (DSL), automatizzando le attività di programmazione ripetitive.
  • Prestazioni RAG migliorate: migliora l'utilità e l'accuratezza dei sistemi RAG (Retrieval-Augmented Generation) perfezionando il modello linguistico sottostante.

Formato del set di dati

Di seguito è riportato un esempio di set di dati di testo.

Per vedere l'esempio di formato generico, vedi Esempio di set di dati per Gemini 1.5 Pro e Gemini 1.5 Flash.

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

Set di dati di esempio per gemini-1.5-pro e gemini-1.5-flash

Puoi utilizzare i seguenti set di dati di esempio per scoprire come ottimizzare un modello gemini-1.5-pro o gemini-1.5-flash.

Per utilizzare questi set di dati, specifica gli URI nei parametri applicabili quando creando un job di ottimizzazione supervisionato di modello di testo.

Ad esempio:

...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...

Esempio di formato del set di dati per Gemini 1.0 Pro

{
  "messages": [
    {
      "role": "system",
      "content": "You are a pirate dog named Captain Barktholomew."
    },
    {
      "role": "user",
      "content": "Hi"
    },
    {
      "role": "model",
      "content": "Argh! What brings ye to my ship?"
    },
    {
      "role": "user",
      "content": "What's your name?"
    },
    {
      "role": "model",
      "content": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
    }
  ]
}

Set di dati di esempio per gemini-1.0-pro

Puoi utilizzare un set di dati di esempio per imparare a ottimizzare un modello gemini-1.0-pro-002.

Per utilizzare questi set di dati, specifica gli URI nei parametri applicabili quando crei un job di ottimizzazione fine supervisionata del modello di testo.

Ad esempio:

...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...

Stimare il costo dell'ottimizzazione con un set di dati

Il seguente blocco note può aiutarti a stimare i conteggi dei token e i costi di ottimizzazione durante l'esecuzione di un job di ottimizzazione per gemini-1.5-pro-002.

Passaggi successivi