Forniamo diversi esempi su come utilizzare l'SDK di valutazione rapida per eseguire valutazioni sui tuoi modelli di AI generativa.
Valuta i tuoi modelli in tempo reale
Il servizio di valutazione rapida di Vertex AI consente di valutare i modelli di IA generativa in tempo reale. Per scoprire come utilizzare la valutazione rapida, vedi Eseguire una valutazione rapida.
Per un esempio end-to-end, consulta il blocco note Colab per l'SDK Vertex AI per Python con valutazione rapida.
Valutare e ottimizzare la progettazione dei modelli di prompt
Usa l'SDK di valutazione rapida per valutare l'effetto del prompt engineering. Esamina le statistiche corrispondenti a ogni modello di prompt per capire in che modo le differenze nei prompt influiscono sui risultati della valutazione.
Per un esempio end-to-end, consulta il blocco note Valuta e ottimizza la progettazione dei modelli di prompt per ottenere risultati migliori.
Valutare e selezionare modelli LLM utilizzando le metriche di benchmark
Utilizza l'SDK di valutazione rapida per assegnare un punteggio sia ai modelli Gemini Pro che ai modelli Text Bison in base a un set di dati di benchmark e a un'attività.
Per un esempio end-to-end, consulta il blocco note Score and Select LLM Models.
Valuta e seleziona le impostazioni di generazione dei modelli
Utilizza l'SDK di valutazione rapida per regolare la temperatura di Gemini Pro
in un'attività di riepilogo e valutare quality
, fluency
,
safety
e verbosity
.
Per un esempio end-to-end, consulta il blocco note Valutare e selezionare le impostazioni di generazione dei modelli.
Definisci le metriche
Utilizza l'SDK di valutazione rapida per valutare più modelli di prompt con metriche personalizzate.
Per un esempio end-to-end, consulta il blocco note Definisci le tue metriche.
Valuta l'utilizzo dello strumento
Utilizza l'SDK di valutazione rapida per definire una funzione API e uno strumento per il modello Gemini. Puoi usare l'SDK anche per valutare l'uso dello strumento e la qualità delle chiamate di funzione per Gemini.
Per un esempio end-to-end, consulta il blocco note Valutare l'uso e le chiamate delle funzioni dello strumento del modello generativo.
Valutare le risposte generate da RAG per la risposta alle domande
Utilizza l'SDK di valutazione rapida per valutare un'attività di risposta a domande provenienti dalle risposte generate dal recupero tramite generazione aumentata (RAG).
Per un esempio end-to-end, consulta il blocco note Valutare le risposte generate da RAG per la risposta alle domande.
Passaggi successivi
- Scopri di più sulla valutazione dell'AI generativa.
- Scopri di più sulla valutazione online con la valutazione rapida.
- Scopri di più sulla valutazione di coppie basate su modello con la pipeline AutoSxS.
- Scopri di più sulla pipeline di valutazione basata sul calcolo.
- Scopri come ottimizzare un modello di base.