Il servizio di valutazione dell'IA generativa in Vertex AI ti consente di valutare qualsiasi modello o applicazione generativa e di confrontare i risultati della valutazione in base al tuo giudizio, utilizzando i tuoi criteri di valutazione.
Sebbene le classifiche e i report offrano informazioni sul rendimento complessivo del modello, non rivelano in che modo un modello gestisce le tue esigenze specifiche. Il servizio di valutazione dell'IA generativa ti aiuta a definire i tuoi criteri di valutazione, garantendoti una chiara comprensione del grado di allineamento dei modelli e delle applicazioni di AI generativa al tuo caso d'uso specifico.
La valutazione è importante in ogni fase del processo di sviluppo dell'IA generativa, inclusa la selezione del modello, la progettazione dei prompt e la personalizzazione del modello. La valutazione dell'IA generativa è integrata in Vertex AI per aiutarti a lanciare e riutilizzare le valutazioni in base alle esigenze.
Funzionalità del servizio di valutazione dell'IA generativa
Il servizio di valutazione dell'IA generativa può aiutarti con le seguenti attività:
Selezione del modello: scegli il modello preaddestrato migliore per la tua attività in base ai risultati del benchmark e alle sue prestazioni sui tuoi dati specifici.
Impostazioni di generazione: modifica i parametri del modello (ad esempio la temperatura) per ottimizzare l'output in base alle tue esigenze.
Prompt engineering: crea prompt e modelli di prompt efficaci per indirizzare il modello verso il comportamento e le risposte che preferisci.
Migliora e salvaguarda il perfezionamento: perfeziona un modello per migliorare il rendimento per il tuo caso d'uso, evitando al contempo bias o comportamenti indesiderati.
Ottimizzazione RAG: seleziona l'architettura RAG (Retrieval Augmented Generation) più efficace per migliorare le prestazioni della tua applicazione.
Migrazione: valuta e migliora continuamente il rendimento della tua soluzione di AI eseguendo la migrazione a modelli più recenti, se offrono un vantaggio chiaro per il tuo caso d'uso specifico.
Traduzione (anteprima): valuta la qualità delle traduzioni del tuo modello.
Procedura di valutazione
Il servizio di valutazione dell'IA generativa ti consente di valutare qualsiasi modello o applicazione di IA generativa in base ai tuoi criteri di valutazione seguendo questi passaggi:
Definire le metriche di valutazione:
Scopri come personalizzare le metriche basate su modelli in base ai criteri della tua attività.
Valutare un singolo modello (puntuale) o determinare il vincitore quando si confrontano due modelli (a coppie).
Includi le metriche basate su calcoli per ottenere ulteriori approfondimenti.
Prepara il set di dati di valutazione.
- Fornisci un set di dati che rifletta il tuo caso d'uso specifico.
-
Puoi iniziare da zero, utilizzare un modello o adattare esempi esistenti.
Definisci i modelli candidati e crea un
EvalTask
per riutilizzare la logica di valutazione tramite Vertex AI.
Notebooks per i casi d'uso di valutazione
La seguente tabella elenca i notebook Vertex AI SDK per Python per vari casi d'uso di valutazione dell'IA generativa:
Caso d'uso | Descrizione | Link ai blocchi note |
---|---|---|
Valutare i modelli | Guida rapida: introduzione all'SDK del servizio di valutazione dell'IA generativa. | Introduzione all'SDK del servizio di valutazione dell'IA generativa |
Valuta e seleziona i modelli di base proprietari (proprietari) per la tua attività. | Valutare e selezionare i modelli di base proprietari (proprietari) per l'attività | |
Valuta e seleziona le impostazioni del modello di IA generativa: regola la temperatura, il limite di token di output, le impostazioni di sicurezza e altre configurazioni di generazione del modello dei modelli Gemini in un'attività di sintesi e confronta i risultati della valutazione di impostazioni del modello diverse su diverse metriche. |
Confrontare diverse impostazioni dei parametri del modello per Gemini | |
Valutare i modelli di terze parti (3P) in Model Garden di Vertex AI. Questo notebook fornisce una guida completa per la valutazione sia dei modelli Gemini di Google sia dei modelli linguistici di terze parti utilizzando l'SDK del servizio di valutazione dell'IA generativa. Scopri come valutare e confrontare modelli di origini diverse, inclusi modelli aperti e chiusi, endpoint dei modelli e librerie client di terze parti, utilizzando varie tecniche e metriche di valutazione. Acquisisci esperienza pratica nella conduzione di esperimenti controllati e nell'analisi del rendimento del modello in una serie di attività. |
Utilizzare l'SDK del servizio di valutazione dell'IA generativa per valutare i modelli in Vertex AI Studio, Model Garden e Model Registry | |
Esegui la migrazione dal modello PaLM a Gemini con l'SDK del servizio di valutazione dell'IA generativa. Questo notebook illustra la procedura per valutare i modelli di base PaLM e Gemini utilizzando più metriche di valutazione per supportare le decisioni relative alla migrazione da un modello all'altro. Visualizziamo queste metriche per ottenere informazioni sui punti di forza e di debolezza di ciascun modello, aiutandoti a prendere una decisione consapevole su quale è più in linea con i requisiti specifici del tuo caso d'uso. |
Eseguire il confronto e la migrazione dal modello PaLM a Gemini | |
Valutare i modelli di traduzione. Questo blocco note mostra come utilizzare l'SDK Vertex AI per il servizio di valutazione dell'IA generativa per misurare la qualità della traduzione delle risposte del tuo modello linguistico di grandi dimensioni (LLM) utilizzando BLEU, MetricX e COMET. |
Valutare un modello di traduzione | |
Valutare i modelli di prompt | Progettazione e valutazione dei prompt con l'SDK del servizio di valutazione dell'IA generativa. | Valutare e ottimizzare il design del modello di prompt per ottenere risultati migliori |
Valutare le applicazioni di AI generativa | Valuta le funzionalità di chiamata di funzioni e di utilizzo dello strumento di modelli Gemini. | Valutare l'utilizzo dello strumento di creazione di modelli Gemini |
Valuta le risposte generate dalla Retrieval-Augmented Generation (RAG) per un'attività di risposta alle domande con l'SDK del servizio di valutazione dell'IA generativa. | Valutare le risposte generate dalla Retrieval-Augmented Generation (RAG) | |
Valuta i chatbot LangChain con il servizio di valutazione dell'IA generativa di Vertex AI. Questo blocco note mostra come valutare un chatbot conversazionale LangChain utilizzando l'SDK del servizio di valutazione dell'IA generativa di Vertex AI. Copre la preparazione dei dati, la configurazione della catena LangChain, la creazione di metriche di valutazione personalizzate e l'analisi dei risultati. Il tutorial utilizza un chatbot per suggerimenti di ricette come esempio e mostra come migliorarne il rendimento mediante l'iterazione sul design del prompt. |
Valutare LangChain | |
Personalizzazione delle metriche | Personalizza le metriche basate su modelli e valuta un modello di AI generativa in base a criteri specifici utilizzando le seguenti funzionalità:
|
Personalizzare le metriche basate su modello per valutare un modello di IA generativa |
Valuta i modelli di AI generativa con la metrica personalizzata definita localmente e utilizza il tuo modello di valutazione per eseguire la valutazione delle metriche basate su modelli. | Bring-Your-Own-Autorater (Valutazione automatica di tua proprietà) con metrica personalizzata | |
Definisci le tue funzioni di metrica personalizzata basate su calcoli e utilizzale per la valutazione con l'SDK di Gen AI evaluation service. | Metrica personalizzata basata su calcoli di terze parti | |
Altri argomenti | Guida alla migrazione dall'SDK di Gen AI evaluation service in anteprima alla versione GA. Questo tutorial descrive la procedura di migrazione dalla versione Preview alla versione GA più recente dell'SDK Vertex AI per Python per il servizio di valutazione dell'IA generativa. La guida mostra anche come utilizzare l'SDK della versione GA per valutare la generazione basata sul recupero (RAG) e confrontare due modelli utilizzando la valutazione a coppie. |
Guida alla migrazione dall'anteprima alla versione GA dell'SDK del servizio di valutazione dell'IA generativa |
Modelli e lingue supportati
Il servizio di valutazione dell'IA generativa di Vertex AI supporta i modelli di base di Google, i modelli di terze parti e i modelli aperti. Puoi fornire direttamente le previsioni pregenerate o generare automaticamente le risposte del modello candidato nei seguenti modi:
Genera automaticamente risposte per i modelli di base di Google (come Gemini 1.5 Pro) e per qualsiasi modello di cui è stato eseguito il deployment nel Model Registry di Vertex AI.
Integrazione con API di generazione di testo dell'SDK di altri modelli aperti e di terze parti.
Avvolgi gli endpoint dei modelli di altri provider utilizzando l'SDK Vertex AI.
Per le metriche basate sul modello Gemini, il servizio di valutazione dell'IA generativa supporta tutte le lingue di input supportate da Gemini 1.5 Pro. Tuttavia, la qualità delle valutazioni per gli input in lingue diverse dall'inglese potrebbe non essere altrettanto elevata.
Il servizio di valutazione dell'IA generativa supporta i seguenti linguaggi per le metriche di traduzione basate su modelli:
MetricX
Lingue supportate per MetricX: arabo, albanese, amarico, armeno, azero, basco, bielorusso, bengalese, bulgaro, birmano, catalano, cebuano, ceco, chichewa, cinese, corso, croato, danese, esperanto, estone, filippino, finlandese, francese, gallese, georgiano, giapponese, greco, gujarati, creolo haitiano, hausa, hawaiano, ebraico, hindi, hmong, húngaro, islandese, irlandese, indonesiano, italiano, klingon, coreano, kurdo, kirghizo, latino, latvese, lituano, lussegno, macedone, malgascio, malayo, malayalam, maltese, maori, marathi, mongolo, nepalese, norvegese, pashto, persiano, polacco, portoghese, punjabi, rumeno, russo, samoano, scozzese gaelico, serbo, shona, sindhi, singalese, slovacco, sloveno, somalo, sotho, spagnolo, sundanese, swahili, svedese, tagiko, tamil, telugu, thai, turco, ucraino, urdu, uzbeko, vietnamita, gallese, fiammingo occidentale, xhosa, yiddish, yoruba, Zulu.
COMET
Lingue supportate per COMET: arabo, albanese, amarico, azerbaijano, basco, bengalese, bengalese romanizzato, bosniaco, bretone, bulgaro, burmese, catalano, cinese (semplificato), cinese (tradizionale), croato, ceco, danese, ebraico, Esperanto, estone, filippino, finlandese, francese, gallese, georgiano, giapponese, greco, Gujarati, Hausa, Hindi, Hindi romanizzato, hongkongese, irlandese, italiano, islandese, indonesiano, inglese, latino, lettone, lituano, macedone, malayo, malayalam, marathi, mongolo, nepalese, norvegese, oromo, orissa, pashto, persiano, polacco, portoghese, punjabi, rumeno, russo, sanskrito, scozzese, serbo, Sindhi, Sinhala, slovacco, sloveno, somalo, spagnolo, Sundanese, swahili, svedese, Tamil, Tamil romanizzato, Telugu, Telugu romanizzato, thailandese, turco, ucraino, urdu, Urdu romanizzato, uiguro, uzbeko, vietnamita, gallese, occidentale, frisone, xhosa, yiddish.
Passaggi successivi
Prova la guida rapida alla valutazione.
Scopri come ottimizzare un modello di base.