Ottimizza e distilla i modelli PaLM

Questa pagina offre una panoramica sull'ottimizzazione dei modelli di testo e chat e sulla distillazione di testo. Imparerai quali sono i tipi di ottimizzazione disponibili e come la distillazione funziona. Imparerai inoltre i vantaggi della regolazione e della distillazione. per i casi in cui potresti voler ottimizzare o distillare un modello di testo.

Ottimizzare i modelli

Puoi scegliere uno dei seguenti metodi per ottimizzare un modello di testo:

  • Ottimizzazione supervisionata: i modelli di generazione di testo e chat di testo supportano ottimizzazione supervisionata. L'ottimizzazione supervisionata di un modello di testo è una buona opzione quando dell'output del modello non è complesso ed è relativamente facile da definire. L'ottimizzazione supervisionata è consigliata per classificazione, analisi del sentiment l'estrazione di entità, il riassunto di contenuti non complessi e la scrittura per query specifiche del dominio. Per i modelli di codice, l'ottimizzazione supervisionata è l'unica . Per scoprire come ottimizzare un modello di testo con l'ottimizzazione supervisionata, consulta Ottimizzazione di testo con ottimizzazione supervisionato.

  • Apprendimento per rinforzo con feedback umano (RLHF): il testo di base e alcuni modelli di trasferimento da testo a testo di Flan I modelli (Flan-T5) supportano l'ottimizzazione RLHF. L'ottimizzazione RLHF è una buona opzione quando l'output del modello è complesso. RLHF funziona bene su modelli con livello di sequenza che non si distinguono facilmente con i dell'ottimizzazione. L'ottimizzazione RLHF è consigliata per la risposta alle domande, il riepilogo contenuti complessi e creazione di contenuti, come una riscrittura. Per imparare a ottimizzare un modello di testo con ottimizzazione RLHF, consulta Ottimizzazione dei modelli di testo con RLHF dell'ottimizzazione.

Vantaggi dell'ottimizzazione del modello di testo

I modelli di testo ottimizzati vengono addestrati su più esempi di quelli che possono rientrare in un prompt. Poiché Di conseguenza, dopo aver ottimizzato un modello preaddestrato, puoi fornire meno esempi rispetto al modello preaddestrato originale. Ne richiedono meno esempi offre i seguenti vantaggi:

  • Bassa latenza nelle richieste.
  • Vengono utilizzati meno token.
  • Una latenza più bassa e un minor numero di token si traducono in una riduzione del costo di inferenza.

Distillazione del modello

Oltre all'ottimizzazione supervisionata e RLHF, Vertex AI supporta distillazione del modello. La distillazione è il processo di addestramento di un modello studente più piccolo In un modello insegnante più grande per imitare il comportamento del modello più grande durante la riduzione le dimensioni.

Esistono diversi tipi di distillazione del modello, tra cui:

  • In base alle risposte: addestra il modello studente sulle probabilità di risposta del modello insegnante.
  • Basato sulle caratteristiche: consente di addestrare il modello studente a imitare i livelli interni del modello insegnante.
  • Basato sulla relazione: addestra il modello dello studente sulle relazioni nell'input o di output del modello insegnante.
  • Autodistillazione: i modelli di insegnanti e studenti hanno lo stesso dell'architettura e il modello insegna da solo.

Vantaggi della distillazione passo passo

I vantaggi della distillazione passo passo includono:

  • Maggiore precisione: la distillazione passo dopo passo è stata mostrato prestazioni migliori rispetto allo standard Prompt few-shot sugli LLM.
  • Un LLM distillato può ottenere risultati sull'esperienza utente ad attività finali specifiche simili ai risultati di LLM molto più grandi.
  • Supera i vincoli relativi ai dati. Puoi utilizzare DSS con un set di dati di prompt senza etichetta con poche migliaia di esempi.
  • Impronte di hosting più piccole.
  • Riduzione della latenza di inferenza.

Distillazione passo passo utilizzando Vertex AI

Vertex AI supporta una forma di distillazione basata sulla risposta chiamata distillazione passo passo (DSS). DSS è un metodo per addestrare modelli più piccoli e specifici per le attività tramite promemoria per la catena di pensiero (COT).

Per utilizzare DSS, hai bisogno di un piccolo set di dati di addestramento composto da input e etichette. Se le etichette non sono disponibili, il modello insegnante genera le etichette. La le logiche vengono estratte dal processo DSS e poi utilizzate per addestrare il modello modello con un'attività di generazione di logica e una tipica attività di previsione. Ciò consente il modello piccolo crea un ragionamento intermedio prima di raggiungere la sua la previsione.

Il seguente diagramma mostra come la distillazione utilizza il COT passo dopo passo per estrarre le motivazioni da un modello linguistico di grandi dimensioni (LLM). La vengono utilizzate per addestrare modelli più piccoli e specifici per le attività.

Diagramma del processo di distillazione passo passo (DSS).
Fonte: Google Research.

Quota

Ogni progetto Google Cloud richiede una quota sufficiente per eseguire un job di ottimizzazione e il job di ottimizzazione utilizza 8 GPU. Se il progetto non dispone di quota sufficiente per un'ottimizzazione o se vuoi eseguire più job di ottimizzazione simultanei nel tuo progetto, necessario richiedere una quota aggiuntiva.

La tabella seguente mostra il tipo e la quantità di quota da richiedere in base la regione in cui hai specificato l'esecuzione dell'ottimizzazione:

Regione Quota per le risorse Importo per job simultaneo

us-central1

Restricted image training Nvidia A100 80GB GPUs per region

8

Restricted image training CPUs for A2 CPU types per region

96

europe-west4

Restricted image training TPU V3 pod cores per region

64

Prezzi

Quando ottimizzi o distilli un modello di base, paghi il costo per l'esecuzione dell'ottimizzazione o una pipeline di distillazione. Quando esegui il deployment di un modello di base ottimizzato o distillato a un endpoint Vertex AI, non ti viene addebitato alcun costo per l'hosting. Da portata previsioni, paghi lo stesso prezzo per la pubblicazione delle previsioni utilizzando modello di base non ottimizzato (per l'ottimizzazione) o modello studente (per la distillazione). Per scoprire quali modelli di base possono essere ottimizzati e distillati, consulta: Modelli di base. Per per maggiori dettagli sui prezzi, vedi Prezzi per l'AI generativa su Vertex AI.

Passaggi successivi