Panoramica del servizio di valutazione dell'IA generativa

Vertex AI fornisce metriche di valutazione dei modelli sia per l'IA predittiva sia per i modelli di IA generativa. Questa pagina fornisce una panoramica del servizio di valutazione per i modelli di AI generativa. Per valutare un modello di AI predittivo, consulta Modello la valutazione in Vertex AI.

Questa pagina fornisce una panoramica del servizio di valutazione dell'AI generativa, che consente di valutare le prestazioni del modello in casi d'uso specifici. Potresti inoltre La valutazione si riferisce all'osservabilità delle prestazioni di un modello. Lo strumento Il servizio di valutazione dell'AI consente di monitorare le prestazioni del modello in le tue condizioni, fornendo insight che ti aiutano a ottimizzare il modello in base caso d'uso specifico.

Le classifiche possono fornire metriche sulle prestazioni generali del modello, ma non prestazioni del modello in casi d'uso specifici. Quando si sviluppano applicazioni di grandi dimensioni linguistici di grandi dimensioni (LLM), è importante valutare il modello utilizzando criteri specifiche per il tuo caso d'uso.

Le valutazioni ti aiutano a garantire che i modelli si adattino alle esigenze i requisiti di diversi utenti. Valutando i modelli rispetto ai modelli definiti dall'utente benchmark e obiettivi, puoi applicare prompt tecnica e l'ottimizzazione del modello per devono essere in linea con le attività in cui operi. Queste valutazioni hanno lo scopo di guidare lo sviluppo e il miglioramento dei modelli contribuendo allo stesso tempo a garantire che i modelli utili, sicuri ed efficaci per i tuoi utenti.

Alcune metriche chiave fornite dal servizio di valutazione di modelli di AI generativa includono: le seguenti:

  • Corrispondenza esatta
  • ROUGE
  • BLEU
  • Utilità, qualità e livello di dettaglio dei riassunti

Esempi di casi d'uso

Valuti i modelli di AI generativa per fornire un benchmark per le prestazioni del modello e per guidare lo sviluppo e il perfezionamento strategici dei tuoi modelli e diverse applicazioni. Questo processo aiuta a garantire che i modelli di AI generativa siano allineati in base alle esigenze della tua attività. La valutazione del modello offre diversi vantaggi fasi di sviluppo. Per la pre-produzione, puoi usare la valutazione del modello per aiutarti a selezionare un modello e personalizzarlo. In fase di produzione, puoi monitorare le prestazioni del modello per garantire che i modelli siano efficaci.

La valutazione dell'IA generativa può essere applicata a una serie di scenari di casi d'uso, tra cui:

  • Seleziona modelli preaddestrati: scegli un modello preaddestrato per un'attività specifica o dell'applicazione valutando le prestazioni del modello sul benchmark associato attività di machine learning.
  • Configura le impostazioni di generazione del modello: ottimizza le impostazioni di configurazione di parametri di generazione del modello, come temperature, che possono migliorare l'esecuzione delle attività.
  • Prompt engineering utilizzando un modello: progetta prompt più efficaci che generano output di qualità superiore, migliorando l'interazione con il modello.
  • Migliora e salvaguarda l'ottimizzazione: perfeziona i processi per migliorare il modello. il rendimento, evitando bias o comportamenti indesiderati.

Per saperne di più sui modelli linguistici generativi, vedi Blocchi note di valutazione.

Servizi di valutazione

Vertex AI offre due opzioni di servizio per eseguire la valutazione di AI generativa. Scegli il servizio più adatto al tuo caso d'uso:

Servizio Caso d'uso
Valutazione online (valutazione rapida) Alcune istanze da valutare. Workflows che richiedono iterazioni rapide.
Valutazione della pipeline (AutoSxS e basata sul calcolo) Molte istanze da valutare. Flussi di lavoro asincroni e MLOps. Valutazione basati su Vertex AI Pipelines.

Valutazione rapida

Il servizio di valutazione rapida produce una bassa latenza e valutazioni sincrone su piccoli batch di dati. Tu eseguire valutazioni on demand e integrare il servizio online con i servizi Vertex AI utilizzando l'SDK Vertex AI per Python. L'utilizzo dell'SDK il servizio online adattabile a una varietà di casi d'uso.

Il servizio online è più adatto per i casi d'uso che coinvolgono piccoli lotti di o quando devi iterare e sperimentare rapidamente.

Valutazione della pipeline: AutoSxS e basata sul calcolo

I servizi della pipeline di valutazione forniscono opzioni end-to-end per valutare di AI generativa. Queste opzioni usano Vertex AI Pipelines orchestra una serie di passaggi relativi alla valutazione, come la generazione del modello le risposte, chiamare il servizio di valutazione online e calcolare le metriche. Questi i passaggi possono anche essere chiamati singolarmente in pipeline personalizzate.

Poiché Vertex AI Pipelines è serverless, l'attività di avvio associata all'uso delle pipeline per la valutazione. Pertanto, questo servizio è più adatto per job di valutazione più ampi, flussi di lavoro in cui le valutazioni immediatamente necessaria e l'integrazione nelle pipeline MLOps.

Offriamo due pipeline di valutazione separate, come segue:

Paradigmi di valutazione

Le valutazioni dell'IA generativa funzionano grazie a due paradigmi per valutare i modelli: che includono:

Basata su punti

La valutazione puntuale valuta le prestazioni di un singolo modello. Ti aiuta a comprendere le prestazioni del modello su un'attività specifica, ad esempio summarization o una dimensione, ad esempio instruction following. La valutazione prevede i seguenti passaggi:

  1. I risultati previsti vengono generati dal modello in base al prompt di input.
  2. La valutazione viene eseguita in base ai risultati generati.

A seconda del metodo di valutazione, le coppie di input e output e i dati di fatto potrebbe essere necessario. Quando sono disponibili dati di fatto, gli output del modello valutati in base al livello di allineamento dei risultati a quelli attesi. Per per ulteriori informazioni, consulta l'articolo Eseguire di valutazione. Quando utilizzato senza terra la valutazione si basa sulla risposta del modello ai prompt di input. R viene anche usato un modello separato di valutazione automatica. Per ulteriori informazioni, vedi Esegui la valutazione AutoSxS (valutazione basata su modello a coppie) per produrre metriche personalizzate in base alla natura dell'attività. Ad esempio, potresti utilizzare coherence e relevance in text generation o accuracy a summarization.

Questo paradigma consente di comprendere le capacità di un modello generando contenuti, fornendo insight sui punti di forza del modello e sulle aree di miglioramento in un contesto autonomo, senza richiedere un confronto diretto con un altro modello.

Basata su coppie

La valutazione a coppie viene eseguita confrontando le previsioni di due modelli. Hai un modello A da valutare rispetto al modello B, il modello di riferimento di base. Devi fornire prompt di input che rappresentano il dominio di input utilizzato per il confronto dei modelli. Dato lo stesso prompt di input, il confronto affiancato specifica quale modello la previsione è preferibile in base ai criteri di confronto. La valutazione finale vengono acquisiti da win rate. Questo paradigma può operare anche senza dalla necessità di fare riferimento a dati di fatto.

Metodi di valutazione

Esistono due categorie di metriche basate su di valutazione, che includono:

Metriche basate sul calcolo

Le metriche basate sul calcolo confrontano se i risultati generati dall'LLM sono coerente con un set di dati basato su dati empirici reali di coppie di input e output. L'approccio le metriche utilizzate possono essere classificate nei seguenti gruppi:

  • Metriche basate sul lessico: utilizza la matematica per calcolare la stringa. somiglianze tra i risultati generati dai modelli LLM e le basi come Exact Match e ROUGE.
  • Metriche basate sul conteggio: aggrega il numero di righe che raggiungono o non superano determinate etichette basate su dati empirici reali, come F1-score, Accuracy e Tool Name Match.
  • Metriche basate sull'incorporamento: calcola la distanza tra i modelli LLM generati e dati di fatto nello spazio di incorporamento, che ne riflettono il livello le similitudini.

Nel servizio di valutazione dell'AI generativa, puoi usare metriche basate sul calcolo attraverso la pipeline e l'SDK Python di valutazione rapida. La valutazione basata sul calcolo può essere eseguita solo in casi d'uso monofunzionali. Tuttavia, puoi accedere direttamente Confrontare i punteggi delle metriche di due modelli per un confronto a coppie.

Metriche basate su modello

Viene utilizzato un modello di valutazione automatica per generare metriche di valutazione basate su modello. Molto simile quest'ultimo esegue valutazioni complesse e articolate. Gli autori di valutazioni tentano di migliorare la valutazione umana e noi calibrano la qualità offline con revisori umani. Proprio come i valutatori umani, l'autore della valutazione determina la qualità delle risposte attraverso un risultato numerico e assegna il ragionamento alla base delle sue sentenze, oltre al livello di fiducia. Per maggiori informazioni consulta la sezione Visualizzare la valutazione personalizzati.

La valutazione basata su modelli è disponibile on demand e valuta i modelli linguistici con un rendimento paragonabile a quello dei revisori umani. Alcuni ulteriori vantaggi la valutazione basata su modello include quanto segue:

  • Valuta i modelli di linguaggio naturale senza dati sulle preferenze umane.
  • Consente di migliorare la scalabilità, aumenta la disponibilità e riduce i costi rispetto nella valutazione dei modelli linguistici con revisori umani.
  • Garantisce trasparenza nelle valutazioni grazie all'acquisizione di spiegazioni sulle preferenze e i punteggi di confidenza.

Questo diagramma illustra il funzionamento della valutazione basata su modello a coppie, che potrebbe da eseguire in casi d'uso monofunzionali e a coppie. Puoi vedere come lo strumento di valutazione automatica esegue la valutazione di coppie nel servizio della pipeline di valutazione, AutoSxS.

Panoramica del funzionamento di AutoSxS

Passaggi successivi