Forniamo diversi esempi di come utilizzare il servizio di valutazione dell'IA generativa su Vertex AI per eseguire valutazioni sui tuoi modelli di IA generativa.
Valuta i tuoi modelli in tempo reale
Il servizio di valutazione rapida Vertex AI consente di valutare i modelli di IA generativa in tempo reale. Per informazioni su come utilizzare la valutazione rapida, consulta Eseguire una valutazione rapida.
Valuta e ottimizza la progettazione dei modelli di prompt
Utilizza l'SDK di valutazione rapida per valutare l'effetto del prompt engineering. Esamina le statistiche corrispondenti a ogni modello di prompt per capire in che modo le differenze nei prompt influiscono sui risultati della valutazione.
Valutare e selezionare gli LLM utilizzando metriche di benchmark
Utilizza l'SDK di valutazione rapida per assegnare un punteggio ai modelli Gemini Pro e Text Bison in un set di dati di benchmark e in un'attività.
Valuta e seleziona le impostazioni di generazione dei modelli
Utilizza l'SDK di valutazione rapida per regolare la temperatura di Gemini Pro
in un'attività di riepilogo e per valutare quality
, fluency
,
safety
e verbosity
.
Definisci le metriche
Utilizza l'SDK di valutazione rapida per valutare più modelli di prompt con le metriche definite in modo personalizzato.
Valutare l'uso degli strumenti e le chiamate di funzione
Utilizza l'SDK di valutazione rapida per definire una funzione API e uno strumento per il modello Gemini. Puoi usare l'SDK anche per valutare l'uso degli strumenti e la qualità delle chiamate di funzione.
Valuta le risposte generate da RAG per la risposta alle domande
Utilizza l'SDK di valutazione rapida per valutare un'attività di risposta alle domande dalle risposte generate dalla Retrieval Augmented Generation (RAG).
Valuta un LLM in Vertex AI Model Registry rispetto a un modello di terze parti
Utilizza AutoSxS per valutare le risposte tra due modelli e stabilire un vincitore. Puoi fornire le risposte o generarle utilizzando le previsioni batch di Vertex AI.
Verifica l'allineamento dello strumento di valutazione automatica rispetto a un set di dati con preferenze umane
Utilizza AutoSxS per verificare il livello di allineamento delle valutazioni dei classificatori automatici a un insieme di valutazioni umane fornite per una determinata attività. Determina se AutoSxS è sufficiente per il tuo caso d'uso o se necessita di ulteriori personalizzazioni.
Valuta le catene Langchain
Utilizza l'SDK di valutazione rapida per valutare le catene Langchain. Prepara i dati, configura la catena Langchain ed esegui la valutazione.
Passaggi successivi
- Scopri di più sulla valutazione dell'AI generativa.
- Scopri di più sulla valutazione online con la valutazione rapida.
- Scopri di più sulla valutazione della coppia basata su modello con la pipeline AutoSxS.
- Scopri di più sulla pipeline di valutazione basata sul calcolo.
- Scopri come ottimizzare un modello di base.