Il servizio di valutazione dell'IA generativa in Vertex AI ti consente di valutare qualsiasi modello o applicazione generativa e di confrontare i risultati della valutazione in base al tuo giudizio, utilizzando i tuoi criteri di valutazione.
Sebbene le classifiche e i report offrano informazioni sulle prestazioni complessive del modello, non rivelano in che modo un modello gestisce le tue esigenze specifiche. Il servizio di valutazione dell'IA generativa ti aiuta a definire i tuoi criteri di valutazione, garantendoti una chiara comprensione del grado di allineamento dei modelli e delle applicazioni di IA generativa al tuo caso d'uso specifico.
La valutazione è importante in ogni fase del processo di sviluppo dell'IA generativa, inclusa la selezione del modello, la progettazione dei prompt e la personalizzazione del modello. La valutazione dell'IA generativa è integrata in Vertex AI per aiutarti ad avviare e riutilizzare le valutazioni in base alle esigenze.
Funzionalità del servizio di valutazione dell'IA generativa
Il servizio di valutazione dell'IA generativa può aiutarti con le seguenti attività:
Selezione del modello: scegli il miglior modello preaddestrato per la tua attività in base ai risultati di benchmark e alle sue prestazioni in base a dati specifici.
Impostazioni di generazione: modifica i parametri del modello (ad esempio la temperatura) per ottimizzare l'output in base alle tue esigenze.
Prompt engineering: crea prompt e modelli di prompt efficaci per guidare il modello verso il comportamento e le risposte che preferisci.
Migliora e salvaguarda il perfezionamento: perfeziona un modello per migliorare il rendimento per il tuo caso d'uso, evitando al contempo bias o comportamenti indesiderati.
Ottimizzazione RAG: seleziona l'architettura RAG (Retrieval Augmented Generation) più efficace per migliorare le prestazioni della tua applicazione.
Migrazione: valuta e migliora continuamente il rendimento della tua soluzione di IA eseguendo la migrazione a modelli più recenti, se offrono un vantaggio evidente per il tuo caso d'uso specifico.
Processo di valutazione
Il servizio di valutazione dell'IA generativa ti consente di valutare qualsiasi modello o applicazione di IA generativa in base ai tuoi criteri di valutazione seguendo questi passaggi:
Definire le metriche di valutazione:
Scopri come personalizzare le metriche basate su modelli in base ai criteri della tua attività.
Valuta un singolo modello (in termini di punti) o determina il vincitore quando confronti due modelli (a coppie).
Includi le metriche basate su calcoli per ottenere ulteriori approfondimenti.
Prepara il set di dati di valutazione.
- Fornisci un set di dati che rifletta il tuo caso d'uso specifico.
-
Inizia da zero, utilizza un modello o adatta gli esempi esistenti.
Definisci i modelli candidati e crea un
EvalTask
per riutilizzare la logica di valutazione tramite Vertex AI.
Notebook per i casi d'uso di valutazione
La seguente tabella elenca i notebook Vertex AI SDK per Python per vari casi d'uso di valutazione dell'IA generativa:
Caso d'uso | Descrizione | Link ai blocchi note |
---|---|---|
valuta i modelli | Guida rapida: introduzione all'SDK Gen AI Evaluation Service. | Introduzione all'SDK Gen AI Evaluation Service |
Valuta e seleziona modelli di base proprietari per la tua attività. | Valutare e selezionare i modelli di base proprietari (proprietari) per l'attività | |
Valuta e seleziona le impostazioni del modello di IA generativa: Regola la temperatura, il limite di token di output, le impostazioni di sicurezza e altre configurazioni di generazione dei modelli Gemini in un'attività di riepilogo e confronta i risultati di valutazione da diverse impostazioni del modello su diverse metriche. |
Confrontare le diverse impostazioni dei parametri del modello per Gemini | |
Valutare i modelli di terze parti (3P) in Model Garden di Vertex AI. Questo blocco note fornisce una guida completa per valutare sia i modelli Gemini di Google sia i modelli linguistici di terze parti utilizzando l'SDK Gen AI Evaluation Service. Scopri come valutare e confrontare modelli di origini diverse, inclusi modelli aperti e chiusi, endpoint dei modelli e librerie client di terze parti, utilizzando varie tecniche e metriche di valutazione. Acquisisci esperienza pratica nello svolgimento di esperimenti controllati e nell'analisi delle prestazioni del modello in una serie di attività. |
Utilizza l'SDK Gen AI Evaluation per valutare i modelli in Vertex AI Studio, Model Garden e Model Registry | |
Esegui la migrazione dal modello PaLM a Gemini con l'SDK Gen AI Evaluation Service. Questo blocco note ti guida nella valutazione dei modelli di base PaLM e Gemini utilizzando più metriche di valutazione per supportare le decisioni relative alla migrazione da un modello all'altro. Visualizziamo queste metriche per ottenere informazioni sui punti di forza e di debolezza di ciascun modello, aiutandoti a prendere una decisione consapevole su quale è più in linea con i requisiti specifici del tuo caso d'uso. |
Eseguire il confronto e la migrazione dal modello PaLM a Gemini | |
Valutare i modelli di prompt | Progettazione e valutazione dei prompt con l'SDK Gen AI Evaluation Service. | Valutare e ottimizzare il design del modello di prompt per ottenere risultati migliori |
Valuta le applicazioni di IA generativa | Valutare l'uso dello strumento del modello Gemini e le funzionalità di chiamata di funzione. | Valutare l'utilizzo dello strumento di creazione di modelli Gemini |
Valuta le risposte generate dalla Retrieval-Augmented Generation (RAG) per un'attività di risposta alle domande con l'SDK Gen AI Evaluation Service. | Valutare le risposte generate dalla Retrieval-Augmented Generation (RAG) | |
Valuta i chatbot LangChain con Vertex AI Gen AI Evaluation Service. Questo blocco note mostra come valutare un chatbot di conversazione LangChain utilizzando l'SDK Vertex AI Gen AI Evaluation Service. Tratta la preparazione dei dati, l'impostazione della catena LangChain, la creazione di metriche di valutazione personalizzate e l'analisi dei risultati. Il tutorial utilizza un chatbot di suggerimenti di ricette come esempio e mostra come migliorarne le prestazioni ripetendo la progettazione del prompt. |
Valuta LangChain | |
Personalizzazione delle metriche | Personalizza le metriche basate sul modello e valuta un modello di IA generativa in base a criteri specifici utilizzando le seguenti funzionalità:
|
Personalizzare le metriche basate su modelli per valutare un modello di IA generativa |
Valuta i modelli di IA generativa con la metrica personalizzata definita localmente e utilizza il tuo modello di valutazione per eseguire la valutazione delle metriche basate su modelli. | Bring-Your-Own-Autorater (Valutazione automatica di tua proprietà) con metrica personalizzata | |
Definisci le tue funzioni di metriche personalizzate basate su calcoli e utilizzale per la valutazione con l'SDK di Gen AI Evaluation Service. | Integra la tua metrica personalizzata basata su calcolo | |
Altri argomenti | Guida alla migrazione dall'anteprima dell'SDK Gen AI Evaluation Service a GA. Questo tutorial illustra il processo di migrazione dalla versione di anteprima all'ultima versione GA dell'SDK Vertex AI per Python per Gen AI Evaluation Service. La guida mostra anche come utilizzare l'SDK della versione GA per valutare la generazione basata sul recupero (RAG) e confrontare due modelli utilizzando la valutazione a coppie. |
Guida alla migrazione dall'anteprima dell'SDK del servizio di valutazione dell'IA generativa a GA |
Modelli e lingue supportati
Il servizio di valutazione dell'IA generativa di Vertex AI supporta i modelli di base, di terze parti e aperti di Google. Puoi fornire direttamente le previsioni pregenerate o generare automaticamente le risposte del modello candidato nei seguenti modi:
Genera automaticamente risposte per i modelli di base di Google (come Gemini 1.5 Pro) e per qualsiasi modello di cui è stato eseguito il deployment nel Model Registry di Vertex AI.
Integra con API di generazione di testo SDK da altri modelli aperti e di terze parti.
Avvolgi gli endpoint dei modelli di altri provider utilizzando l'SDK Vertex AI.
Il servizio di valutazione dell'IA generativa supporta tutti i linguaggi di input supportati da Gemini 1.5 Pro. Tuttavia, la qualità delle valutazioni per gli input in lingue diverse dall'inglese potrebbe non essere altrettanto elevata.
Passaggi successivi
Prova la guida rapida alla valutazione.
Scopri come ottimizzare un modello di base.