Questa pagina è stata tradotta dall'API Cloud Translation.

Valutare un agente

Dopo aver sviluppato un agente, puoi utilizzare il servizio di valutazione dell'AI generativa per valutare la capacità dell'agente di completare attività e raggiungere obiettivi per un determinato caso d'uso.

Definisci le metriche di valutazione

Inizia con un elenco vuoto di metriche (ad es. metrics = []) e aggiungi le metriche pertinenti. Per includere metriche aggiuntive:

Risposta finale

La valutazione della risposta finale segue la stessa procedura della valutazione basata su modelli. Per maggiori dettagli, vedi Definire le metriche di valutazione.

Corrispondenza esatta

metrics.append("trajectory_exact_match")

Se la traiettoria prevista è identica a quella di riferimento, con le stesse chiamate agli strumenti nello stesso ordine, la metrica trajectory_exact_match restituisce un punteggio di 1, altrimenti 0.

Parametri di input:

predicted_trajectory: L'elenco delle chiamate di strumenti utilizzate dall'agente per raggiungere la risposta finale.
reference_trajectory: L'utilizzo previsto dello strumento da parte dell'agente per soddisfare la query.

Corrispondenza in ordine

metrics.append("trajectory_in_order_match")

Se la traiettoria prevista contiene tutte le chiamate agli strumenti della traiettoria di riferimento nello stesso ordine e potrebbe anche contenere chiamate agli strumenti aggiuntive, la metrica trajectory_in_order_match restituisce un punteggio di 1, altrimenti 0.

Parametri di input:

predicted_trajectory: la traiettoria prevista utilizzata dall'agente per raggiungere la risposta finale.
reference_trajectory: la traiettoria prevista per l'agente per soddisfare la query.

Corrispondenza in qualsiasi ordine

metrics.append("trajectory_any_order_match")

Se la traiettoria prevista contiene tutte le chiamate di strumenti della traiettoria di riferimento, ma l'ordine non è importante e potrebbe contenere chiamate di strumenti aggiuntive, la metrica trajectory_any_order_match restituisce un punteggio di 1, altrimenti 0.

Parametri di input:

predicted_trajectory: L'elenco delle chiamate di strumenti utilizzate dall'agente per raggiungere la risposta finale.
reference_trajectory: L'utilizzo previsto dello strumento da parte dell'agente per soddisfare la query.

Precisione

metrics.append("trajectory_precision")

La metrica trajectory_precision misura quante chiamate agli strumenti nella traiettoria prevista sono effettivamente pertinenti o corrette in base alla traiettoria di riferimento. Si tratta di un valore float compreso nell'intervallo [0, 1]: più alto è il punteggio, più precisa è la traiettoria prevista.

La precisione viene calcolata nel seguente modo: conta quante azioni nella traiettoria prevista compaiono anche nella traiettoria di riferimento. Dividi questo conteggio per il numero totale di azioni nella traiettoria prevista.

Parametri di input:

predicted_trajectory: L'elenco delle chiamate di strumenti utilizzate dall'agente per raggiungere la risposta finale.
reference_trajectory: L'utilizzo previsto dello strumento da parte dell'agente per soddisfare la query.

Richiamo

metrics.append("trajectory_recall")

La metrica trajectory_recall misura quante delle chiamate agli strumenti essenziali della traiettoria di riferimento vengono effettivamente acquisite nella traiettoria prevista. È un valore float nell'intervallo di [0, 1]: più alto è il punteggio, migliore è il richiamo della traiettoria prevista.

Il richiamo viene calcolato nel seguente modo: conta quante azioni nella traiettoria di riferimento compaiono anche nella traiettoria prevista. Dividi questo conteggio per il numero totale di azioni nella traiettoria di riferimento.

Parametri di input:

predicted_trajectory: L'elenco delle chiamate di strumenti utilizzate dall'agente per raggiungere la risposta finale.
reference_trajectory: L'utilizzo previsto dello strumento da parte dell'agente per soddisfare la query.

Utilizzo di un singolo strumento

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

La metrica trajectory_single_tool_use verifica se uno strumento specifico specificato nella specifica della metrica viene utilizzato nella traiettoria prevista. Non controlla l'ordine delle chiamate agli strumenti o il numero di volte in cui lo strumento viene utilizzato, ma solo se è presente o meno. È un valore di 0 se lo strumento è assente, 1 altrimenti.

Parametri di input:

predicted_trajectory: L'elenco delle chiamate di strumenti utilizzate dall'agente per raggiungere la risposta finale.

Personalizzato

Puoi definire una metrica personalizzata nel seguente modo:

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

Le seguenti due metriche di rendimento sono sempre incluse nei risultati. Non è necessario specificarli in EvalTask:

latency (float): tempo impiegato (in secondi) dall'agente per rispondere.
failure (bool): 0 se l'invocazione dell'agente è riuscita, 1 altrimenti.

Prepara il set di dati di valutazione

Per preparare il set di dati per la valutazione della risposta finale o della traiettoria: