Ottimizza e distilla i modelli PaLM

Questa pagina fornisce una panoramica sull'ottimizzazione dei modelli di testo e chat e sulla loro distillazione dei modelli di testo. Scoprirai i tipi di ottimizzazione disponibili e come funziona la distillazione. Scoprirai anche i vantaggi dell'ottimizzazione e della distillazione e degli scenari per ottimizzare o distillare un modello di testo.

Ottimizzare i modelli

Puoi scegliere uno dei seguenti metodi per ottimizzare un modello di testo:

  • Ottimizzazione supervisionata: i modelli di generazione di testo e di chat di testo supportano l'ottimizzazione supervisionata. L'ottimizzazione supervisionata di un modello di testo è una buona opzione quando l'output del modello non è complesso ed è relativamente facile da definire. L'ottimizzazione supervisionata è consigliata per classificazione, analisi del sentiment, estrazione di entità, riepilogo di contenuti non complessi e scrittura di query specifiche per il dominio. Per i modelli di codice, l'ottimizzazione supervisionata è l'unica opzione. Per scoprire come ottimizzare un modello di testo con l'ottimizzazione supervisionata, consulta Ottimizzazione di un modello di testo con ottimizzazione supervisionata.

  • Ottimizzazione dell'apprendimento per rinforzo con feedback umano (RLHF): il modello di base di generazione di testo e alcuni modelli Flan di trasferimento da testo a testo (Flan-T5) supportano l'ottimizzazione RLHF. L'ottimizzazione RLHF è una buona opzione quando l'output del modello è complesso. RLHF funziona bene sui modelli con obiettivi a livello di sequenza difficilmente differenziabili con l'ottimizzazione con supervisione. L'ottimizzazione RLHF è consigliata per la risposta a domande, il riassunto di contenuti complessi e la creazione di contenuti, ad esempio una riscrittura. Per scoprire come ottimizzare un modello di testo con l'ottimizzazione RLHF, consulta Ottimizzare i modelli di testo con l'ottimizzazione RLHF.

Vantaggi dell'ottimizzazione del modello di testo

I modelli di testo ottimizzati vengono addestrati su più esempi di quelli che possono essere inseriti in un prompt. Per questo motivo, dopo l'ottimizzazione di un modello preaddestrato, puoi fornire nel prompt meno esempi rispetto al modello preaddestrato originale. La richiesta di un numero inferiore di esempi comporta i seguenti vantaggi:

  • Latenza più bassa nelle richieste.
  • Vengono utilizzati meno token.
  • Una latenza più bassa e un numero minore di token riducono il costo di inferenza.

Distillazione di modelli

Oltre all'ottimizzazione supervisionata e RLHF, Vertex AI supporta la distillazione del modello. La distillazione è il processo di addestramento di un modello di studente più piccolo su un modello insegnante più grande per simulare il comportamento del modello più grande, riducendo al contempo le dimensioni.

Esistono diversi tipi di distillazione del modello, tra cui:

  • Basato sulle risposte: addestra il modello studente sulle probabilità di risposta del modello insegnante.
  • Basato sulle funzionalità: addestra il modello studente in modo da riprodurre i livelli interni del modello insegnante.
  • Basato sulla relazione: addestra il modello studente sulle relazioni nei dati di input o output del modello insegnante.
  • Autodistillazione: i modelli di insegnante e studente hanno la stessa architettura e il modello si autoaddestra.

Vantaggi della distillazione passo passo

I vantaggi della distillazione passo passo includono:

  • Accuratezza migliorata: la distillazione passo passo è stata mostrata per superare i prompt few-shot standard sugli LLM.
  • Un LLM distillato può ottenere risultati su attività finali specifiche degli utenti che sono simili a quelli di LLM molto più grandi.
  • Supera i limiti dei dati. Puoi usare i DSS con un set di dati di prompt non etichettato, includendo solo poche migliaia di esempi.
  • Impronte di hosting più piccole.
  • Latenza di inferenza ridotta.

Distillazione dettagliata con Vertex AI

Vertex AI supporta una forma di distillazione basata sulla risposta chiamata distillazione passo passo (DSS). DSS è un metodo per addestrare modelli più piccoli e specifici per le attività tramite prompt della catena di pensiero (COT).

Per utilizzare DSS, è necessario un piccolo set di dati di addestramento composto da input ed etichette. Se non sono disponibili etichette, le verranno generate dal modello insegnante. I razionali vengono estratti dal processo DSS e quindi utilizzati per addestrare il modello piccolo con un'attività di generazione della logica e una tipica attività di previsione. Ciò consente al modello di piccole dimensioni di creare un ragionamento intermedio prima di raggiungere la previsione finale.

Il seguente diagramma mostra in che modo la distillazione dettagliata utilizza le richieste COT per estrarre le motivazioni da un modello linguistico di grandi dimensioni (LLM). I logiche vengono utilizzati per addestrare modelli più piccoli specifici per le attività.

Diagramma del processo passo passo della distillazione (DSS).
Fonte: ricerca Google.

Quota

Ogni progetto Google Cloud richiede una quota sufficiente per eseguire un job di ottimizzazione e un job di ottimizzazione utilizza 8 GPU. Se il progetto non dispone di una quota sufficiente per un solo job di ottimizzazione o se vuoi eseguire più job di ottimizzazione simultanei nel tuo progetto, devi richiedere una quota aggiuntiva.

La seguente tabella mostra il tipo e la quantità di quota da richiedere in base alla regione in cui hai specificato l'esecuzione dell'ottimizzazione:

Regione Quota per le risorse Importo per job simultaneo

us-central1

Restricted image training Nvidia A100 80GB GPUs per region

8

Restricted image training CPUs for A2 CPU types per region

96

europe-west4

Restricted image training TPU V3 pod cores per region

64

Prezzi

Quando ottimizzi o distilla un modello di base, paghi il costo per l'esecuzione della pipeline di ottimizzazione o distillazione. Quando esegui il deployment di un modello di base ottimizzato o distillato su un endpoint Vertex AI, non ti viene addebitato alcun costo per l'hosting. Per la pubblicazione delle previsioni, paghi lo stesso prezzo che paghi per la pubblicazione di previsioni utilizzando un modello di base non ottimizzato (per l'ottimizzazione) o il modello studente (per la distillazione). Per sapere quali modelli di base possono essere ottimizzati e distillati, consulta Modelli di base. Per i dettagli dei prezzi, consulta la pagina Prezzi di Generative AI su Vertex AI.

Passaggi successivi