Prova i modelli Gemini 1.5, gli ultimi modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra contestuale fino a 2 milioni di token. Prova i modelli Gemini 1.5, i più recenti modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra contestuale fino a 2 milioni di token.

Questa pagina è stata tradotta dall'API Cloud Translation.

Blocchi note di valutazione

Forniamo diversi esempi di come puoi utilizzare l'SDK di valutazione rapida per eseguire valutazioni sui tuoi modelli di AI generativa.

Valuta i tuoi modelli in tempo reale

Il servizio di valutazione rapida Vertex AI consente di valutare i modelli di IA generativa in tempo reale. Per informazioni su come utilizzare la valutazione rapida, consulta Eseguire una valutazione rapida.

Per un esempio end-to-end, consulta il blocco note Colab per l'SDK Vertex AI per Python con valutazione rapida.

Valuta e ottimizza la progettazione dei modelli di prompt

Utilizza l'SDK di valutazione rapida per valutare l'effetto del prompt engineering. Esamina le statistiche corrispondenti a ogni modello di prompt per capire in che modo le differenze nei prompt influiscono sui risultati della valutazione.

Per un esempio end-to-end, consulta il blocco note Valutazione e ottimizzazione della progettazione dei modelli di prompt per risultati migliori.

Valutare e selezionare modelli LLM utilizzando metriche di benchmark

Utilizza l'SDK di valutazione rapida per assegnare un punteggio ai modelli Gemini Pro e Text Bison in un set di dati di benchmark e in un'attività.

Per un esempio end-to-end, vedi il blocco note Score and Select LLM Models.

Valuta e seleziona le impostazioni di generazione dei modelli

Utilizza l'SDK di valutazione rapida per regolare la temperatura di Gemini Pro in un'attività di riepilogo e per valutare quality, fluency, safety e verbosity.

Per un esempio end-to-end, consulta il blocco note Valuta e seleziona le impostazioni di generazione del modello.

Definisci le metriche

Utilizza l'SDK di valutazione rapida per valutare più modelli di prompt con le metriche definite in modo personalizzato.

Per un esempio end-to-end, consulta il blocco note Definisci le tue metriche.

Valutare l'uso degli strumenti e le chiamate di funzione

Utilizza l'SDK di valutazione rapida per definire una funzione API e uno strumento per il modello Gemini. Puoi usare l'SDK anche per valutare l'uso degli strumenti e la qualità delle chiamate di funzione.

Per un esempio end-to-end, consulta il blocco note Valutare l'utilizzo e la chiamata di funzione dello strumento del modello generativo.

Valuta le risposte generate da RAG per la risposta alle domande

Utilizza l'SDK di valutazione rapida per valutare un'attività di risposta alle domande dalle risposte generate dalla Retrieval Augmented Generation (RAG).

Per un esempio end-to-end, vedi il blocco note Valutare le risposte generate da RAG per le risposte alle domande.

Valuta un LLM in Vertex AI Model Registry rispetto a un modello di terze parti

Utilizza AutoSxS per valutare le risposte tra due modelli e stabilire un vincitore. Puoi fornire le risposte o generarle utilizzando le previsioni batch di Vertex AI.

Per un esempio end-to-end, consulta il blocco note Valutare un LLM in Vertex AI Model Registry rispetto a un modello di terze parti.

Verifica l'allineamento dello strumento di valutazione automatica rispetto a un set di dati con preferenze umane

Utilizza AutoSxS per verificare il livello di allineamento delle valutazioni dei revisori automatici a un insieme di valutazioni umane che fornisci per una determinata attività. Determina se AutoSxS è sufficiente per il tuo caso d'uso o se richiede un'ulteriore personalizzazione.

Per un esempio end-to-end, consulta il blocco note Verificare l'allineamento dello strumento di valutazione automatica rispetto a un set di dati con preferenze umane.

Passaggi successivi

Scopri di più sulla valutazione dell'AI generativa.
Scopri di più sulla valutazione online con la valutazione rapida.
Scopri di più sulla valutazione della coppia basata su modello con la pipeline AutoSxS.
Scopri di più sulla pipeline di valutazione basata sul calcolo.
Scopri come ottimizzare un modello di base.