Panoramica del servizio di valutazione dell'IA generativa

Vertex AI fornisce metriche di valutazione dei modelli sia per l'IA predittiva che per i modelli di IA generativa. Questa pagina fornisce una panoramica del servizio di valutazione per i modelli di AI generativa. Per valutare un modello di AI predittivo, consulta Valutazione del modello in Vertex AI.

Questa pagina fornisce una panoramica del servizio di valutazione dell'AI generativa, che consente di valutare le prestazioni del modello in casi d'uso specifici. La valutazione è anche l'osservabilità delle prestazioni di un modello. Il servizio di valutazione dell'AI generativa consente di monitorare le prestazioni del modello in condizioni diverse, fornendo insight che ti aiutano a ottimizzare il modello in base al caso d'uso specifico.

Le classifiche possono fornire metriche sulle prestazioni generali del modello, ma non sulle prestazioni del modello in casi d'uso specifici. Quando sviluppi modelli linguistici di grandi dimensioni (LLM), è importante valutare il modello utilizzando criteri specifici per il tuo caso d'uso.

Le valutazioni ti aiutano a garantire che i modelli possano adattarsi ai requisiti specifici del dominio di diversi utenti. Valutando i modelli in base a benchmark e obiettivi definiti dall'utente, puoi applicare il prompt engineering e l'ottimizzazione del modello per allinearti meglio alle aziende a cui ti rivolgi. Queste valutazioni vengono utilizzate come guida per lo sviluppo e il miglioramento dei modelli, contribuendo allo stesso tempo a garantire che i modelli siano utili, sicuri ed efficaci per gli utenti.

Alcune metriche chiave fornite dal servizio di valutazione dei modelli di AI generativa includono:

  • Corrispondenza esatta
  • ROUGE
  • BLEU
  • Utilità, qualità e livello di dettaglio dei riassunti

Esempi di casi d'uso

Valuti i modelli di AI generativa per fornire un benchmark per le prestazioni dei modelli e per guidare lo sviluppo e il perfezionamento strategici dei tuoi modelli e delle tue applicazioni. Questo processo garantisce che i modelli AIA generativa siano allineati alle esigenze aziendali. La valutazione del modello offre diversi vantaggi per diverse fasi di sviluppo. Per la pre-produzione, puoi usare la valutazione del modello per selezionarne e personalizzarlo. In fase di produzione, puoi monitorare le prestazioni del modello per garantire che i modelli siano efficaci.

La valutazione dell'IA generativa può essere applicata a una serie di scenari di casi d'uso, tra cui:

  • Seleziona modelli preaddestrati: scegli un modello preaddestrato per un'attività o un'applicazione specifica valutando le prestazioni del modello sulle attività di benchmark associate.
  • Configura le impostazioni di generazione dei modelli: ottimizza le impostazioni di configurazione dei parametri di generazione dei modelli, come temperature, che possono migliorare le prestazioni delle attività.
  • Progettazione dei prompt utilizzando un modello: progetta prompt più efficaci che generino un output di qualità superiore, migliorando l'interazione con il modello.
  • Migliora e proteggi l'ottimizzazione: perfeziona i processi per migliorare le prestazioni del modello evitando bias o comportamenti indesiderati.

Per ulteriori informazioni sui modelli linguistici generativi, consulta Blocchi note di valutazione.

Servizi di valutazione

Vertex AI offre due opzioni di servizio per eseguire la valutazione su modelli di IA generativa. Scegli il servizio più adatto al tuo caso d'uso:

Servizio Caso d'uso
Valutazione online (valutazione rapida) Alcune istanze da valutare. Workflows che richiedono iterazioni rapide.
Valutazione della pipeline (AutoSxS e basata sul calcolo) Molte istanze da valutare. Flussi di lavoro asincroni e MLOps. Modelli di valutazione basati su Vertex AI Pipelines.

Valutazione rapida

Il servizio di valutazione rapida produce valutazioni sincrone e a bassa latenza su piccoli batch di dati. È possibile eseguire valutazioni on demand e integrare il servizio online con altri servizi Vertex AI utilizzando l'SDK Vertex AI per Python. L'uso dell'SDK rende il servizio online adattabile a diversi casi d'uso.

Il servizio online è più adatto per i casi d'uso che coinvolgono piccoli batch di dati o quando è necessario ripetere e sperimentare rapidamente.

Valutazione della pipeline: AutoSxS e basata sul calcolo

I servizi della pipeline di valutazione forniscono opzioni end-to-end per valutare i modelli di AI generativa. Queste opzioni utilizzano Vertex AI Pipelines per orchestrare una serie di passaggi relativi alla valutazione, come la generazione delle risposte del modello, la chiamata al servizio di valutazione online e il calcolo delle metriche. Questi passaggi possono anche essere chiamati singolarmente nelle pipeline personalizzate.

Poiché Vertex AI Pipelines è serverless, l'uso delle pipeline per la valutazione è associato a una latenza di avvio più elevata. Di conseguenza, questo servizio è più adatto per job di valutazione più ampi, flussi di lavoro in cui le valutazioni non sono immediatamente necessarie e integrazione nelle pipeline MLOps.

Offriamo due pipeline di valutazione separate, come segue:

Paradigmi di valutazione

Le valutazioni dell'IA generativa funzionano grazie a due paradigmi per valutare i modelli, che includono:

A punti

La valutazione puntuale valuta le prestazioni di un singolo modello. Ti aiuta a comprendere le prestazioni del modello su un'attività specifica, ad esempio summarization o una dimensione come instruction following. Il processo di valutazione include i seguenti passaggi:

  1. I risultati previsti vengono generati dal modello in base al prompt di input.
  2. La valutazione viene eseguita in base ai risultati generati.

A seconda del metodo di valutazione, potrebbero essere necessarie coppie di input e output e i dati di fatto. Quando i dati di fatto sono disponibili, gli output del modello vengono valutati in base al livello di allineamento di questi ultimi con i risultati attesi. Per ulteriori informazioni, consulta Eseguire la valutazione basata sul calcolo. Quando usata senza dati empirici reali, la valutazione si basa sulla risposta del modello ai prompt di input. Viene anche utilizzato un modello separato di valutazione automatica. Per maggiori informazioni, consulta Eseguire la valutazione AutoSxS (valutazione basata sul modello a coppie) per produrre metriche personalizzate in base alla natura dell'attività. Ad esempio, potresti utilizzare coherence e relevance in text generation o accuracy in summarization.

Questo paradigma consente di comprendere le capacità di un modello nella generazione di contenuti, fornendo insight sui punti di forza e sulle aree di miglioramento del modello in un contesto autonomo, senza richiedere un confronto diretto con un altro modello.

A coppie

La valutazione a coppie viene eseguita confrontando le previsioni di due modelli. Hai un modello A da valutare rispetto al modello B, ovvero il modello di riferimento. Devi fornire prompt di input che rappresentano il dominio di input utilizzato per il confronto dei modelli. Dato lo stesso prompt di input, il confronto affiancato specifica quale previsione del modello è preferita in base ai criteri di confronto. I risultati della valutazione finale vengono acquisiti dal win rate. Questo paradigma può funzionare anche senza un riferimento a dati empirici reali.

Metodi di valutazione

Esistono due categorie di metrics basate sul metodo di valutazione, che includono:

Metriche basate sul calcolo

Le metriche basate sul calcolo confrontano la coerenza dei risultati generati dall'LLM con un set di dati basato su dati empirici reali di coppie di input e output. Le metriche di uso comune possono essere classificate nei seguenti gruppi:

  • Metriche basate sul lessico: utilizza la matematica per calcolare le analogie tra stringhe tra i risultati generati dagli LLM e i dati empirici reali, ad esempio Exact Match e ROUGE.
  • Metriche basate sul conteggio: aggrega il numero di righe che restituiscono o non rilevano determinate etichette basate su dati empirici reali, come F1-score, Accuracy e Tool Name Match.
  • Metriche basate sull'incorporamento: calcola la distanza tra i risultati generati dall'LLM e i dati di fatto nello spazio di incorporamento, in base al loro livello di somiglianza.

Nel servizio di valutazione dell'AI generativa, è possibile utilizzare metriche basate sul calcolo tramite l'SDK per Python di pipeline e valutazione rapida. La valutazione basata sul calcolo può essere eseguita solo in casi d'uso monofunzionali. Tuttavia, puoi confrontare direttamente i punteggi delle metriche di due modelli per un confronto a coppie.

Metriche basate su modello

Viene utilizzato un modello di valutazione automatica per generare metriche di valutazione basate su modello. Proprio come i valutatori umani, quello automatico esegue valutazioni complesse e articolate. I revisori cercano di migliorare la valutazione umana e noi calibrano la qualità offline con i revisori umani. Proprio come i valutatori umani, lo strumento di valutazione automatica determina la qualità delle risposte attraverso l'output di un punteggio numerico e fornisce il ragionamento alla base dei suoi giudizi insieme a un livello di confidenza. Per scoprire di più, consulta la sezione Visualizzare i risultati della valutazione.

La valutazione basata su modelli è disponibile on demand e valuta modelli linguistici con prestazioni paragonabili a quelle dei revisori umani. Ecco alcuni vantaggi aggiuntivi della valutazione basata su modello:

  • Valuta i modelli di linguaggio naturale senza dati sulle preferenze umane.
  • Raggiunge una migliore scalabilità, aumenta la disponibilità e riduce i costi rispetto alla valutazione dei modelli linguistici con revisori umani.
  • Garantisce trasparenza nelle valutazioni grazie all'acquisizione di spiegazioni sulle preferenze e punteggi di affidabilità.

Questo diagramma illustra il funzionamento della valutazione basata su modello basata su coppie, che potrebbe essere eseguita in casi d'uso monofunzionali e basati su coppie. Puoi vedere come lo strumento di valutazione esegue la valutazione della coppia nel servizio della pipeline di valutazione, AutoSxS.

Panoramica del funzionamento di AutoSxS

Passaggi successivi