Il servizio di valutazione dell'IA generativa ti consente i modelli linguistici di grandi dimensioni (LLM), sia puntualmente che a coppie, in diversi metriche, con criteri personalizzati. Puoi fornire input in fase di inferenza, risposte LLM e parametri aggiuntivi e il servizio di valutazione dell'IA generativa restituisce metriche specifiche per l'attività di valutazione.
Le metriche includono metriche basate su modelli, come PointwiseMetric
e PairwiseMetric
, e metriche calcolate in memoria, come rouge
, bleu
e le metriche relative alle chiamate di funzioni dello strumento.
PointwiseMetric
e PairwiseMetric
sono metriche generiche basate su modelli che puoi personalizzare in base ai tuoi criteri.
Poiché il servizio prende come input i risultati di previsione direttamente dai modelli, il servizio di valutazione può eseguire sia l'inferenza sia la valutazione successiva su tutti i modelli supportati da Vertex AI.
Per saperne di più sulla valutazione di un modello, consulta Panoramica del servizio di valutazione dell'IA generativa.
Limitazioni
Di seguito sono riportate le limitazioni del servizio di valutazione:
- Le metriche basate su modelli consumano
quota gemini-1.5-pro.
Il servizio di valutazione dell'IA generativa utilizza
gemini-1.5-pro
come modello di giudice sottostante per calcolare le metriche basate su modelli. - Il servizio di valutazione potrebbe avere un ritardo della propagazione nella prima chiamata.
Sintassi di esempio
Sintassi per inviare una chiamata di valutazione.
curl
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances \ -d '{ "contents": [{ ... }], "tools": [{ "function_declarations": [ { ... } ] }] }'
Python
import json from google import auth from google.api_core import exceptions from google.auth.transport import requests as google_auth_requests creds, _ = auth.default( scopes=['https://www.googleapis.com/auth/cloud-platform']) data = { ... } uri = f'https://${LOCATION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}:evaluateInstances' result = google_auth_requests.AuthorizedSession(creds).post(uri, json=data) print(json.dumps(result.json(), indent=2))
Elenco dei parametri
Parametri | |
---|---|
|
(Facoltativo) Input per valutare se la previsione corrisponde esattamente al riferimento. |
|
(Facoltativo) Input per calcolare il punteggio BLEU confrontando la previsione con il riferimento. |
|
(Facoltativo) Input per calcolare i punteggi di |
|
Facoltativo: Input per valutare la padronanza della lingua di una singola risposta. |
|
Facoltativo: Input per valutare la capacità di una singola risposta di fornire una risposta coerente e facile da seguire. |
|
(Facoltativo) Input per valutare il livello di sicurezza di una singola risposta. |
|
(Facoltativo) Input per valutare la capacità di una singola risposta di fornire o fare riferimento a informazioni incluse solo nel testo inserito. |
|
(Facoltativo) Input per valutare la capacità di una singola risposta di soddisfare completamente le istruzioni. |
|
(Facoltativo) Input per valutare la capacità complessiva di una singola risposta di riassumere il testo. |
|
Facoltativo: Input per confrontare due risposte la qualità complessiva del riassunto. |
|
(Facoltativo) Input per valutare la capacità di una singola risposta di fornire un riassunto, che contiene i dettagli necessari per sostituire il testo originale. |
|
(Facoltativo) Input per valutare la capacità di una singola risposta di fornire un riassunto conciso. |
|
Facoltativo: Input per valutare la capacità complessiva di una singola risposta di rispondere alle domande, dato un testo di riferimento. |
|
(Facoltativo) Input per confrontare la capacità complessiva di due risposte di rispondere alle domande, dato un testo di riferimento. |
|
Facoltativo: Input per valutare la capacità di una singola risposta di fornire informazioni pertinenti quando viene posta una domanda. |
|
(Facoltativo) Input per valutare la capacità di una singola risposta di fornire dettagli chiave quando si risponde a una domanda. |
|
(Facoltativo) Input per valutare la capacità di una singola risposta di rispondere correttamente a una domanda. |
|
(Facoltativo) Input per una valutazione puntuale generica. |
|
Facoltativo: Input per una valutazione generica di coppie. |
|
Facoltativo: Input per valutare la capacità di una singola risposta di prevedere una chiamata allo strumento valida. |
|
Facoltativo: Input per valutare la capacità di una singola risposta di prevedere una chiamata di strumento con il nome dello strumento corretto. |
|
(Facoltativo) Input per valutare la capacità di una singola risposta di prevedere una chiamata allo strumento con i nomi dei parametri corretti. |
|
(Facoltativo) Input per valutare la capacità di una singola risposta di prevedere una chiamata di strumento con i nomi e i valori dei parametri corretti |
ExactMatchInput
{ "exact_match_input": { "metric_spec": {}, "instances": [ { "prediction": string, "reference": string } ] } }
Parametri | |
---|---|
|
(Facoltativo) Specifica della metrica, che definisce il comportamento della metrica. |
|
(Facoltativo) Input di valutazione, composto dalla risposta e dal riferimento dell'LLM. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Risposta LLM dorata come riferimento. |
ExactMatchResults
{ "exact_match_results": { "exact_match_metric_values": [ { "score": float } ] } }
Output | |
---|---|
|
Risultati della valutazione per input istanza. |
|
Il valore sarà uno dei seguenti:
|
BleuInput
{ "bleu_input": { "metric_spec": { "use_effective_order": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Indica se prendere in considerazione gli ordini di n-gram senza corrispondenze. |
|
(Facoltativo) Input di valutazione, composto dalla risposta e dal riferimento dell'LLM. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Risposta LLM dorata come riferimento. |
BleuResults
{ "bleu_results": { "bleu_metric_values": [ { "score": float } ] } }
Output | |
---|---|
|
Risultati della valutazione per input dell'istanza. |
|
|
RougeInput
{ "rouge_input": { "metric_spec": { "rouge_type": string, "use_stemmer": bool, "split_summaries": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
Parametri | |
---|---|
|
(Facoltativo) Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Valori accettati:
|
|
(Facoltativo) Indica se deve essere utilizzato il stemmer di Porter per rimuovere i suffissi di parola al fine di migliorare la corrispondenza. |
|
Facoltativo: Indica se aggiungere nuove righe tra le frasi per rougeLsum. |
|
(Facoltativo) Input di valutazione, composto dalla risposta e dal riferimento dell'LLM. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Risposta LLM dorata come riferimento. |
RougeResults
{ "rouge_results": { "rouge_metric_values": [ { "score": float } ] } }
Output | |
---|---|
|
Risultati della valutazione per input dell'istanza. |
|
|
FluencyInput
{ "fluency_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Input di valutazione, composto da una risposta LLM. |
|
(Facoltativo) la risposta LLM. |
FluencyResult
{ "fluency_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
CoherenceInput
{ "coherence_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
(Facoltativo) Input di valutazione, costituito dalla risposta dell'LLM. |
|
(Facoltativo) la risposta LLM. |
CoherenceResult
{ "coherence_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
SafetyInput
{ "safety_input": { "metric_spec": {}, "instance": { "prediction": string } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Input di valutazione, costituito dalla risposta dell'LLM. |
|
(Facoltativo) la risposta LLM. |
SafetyResult
{ "safety_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
GroundednessInput
{ "groundedness_input": { "metric_spec": {}, "instance": { "prediction": string, "context": string } } }
Parametro |
Descrizione |
|
(Facoltativo) GroundednessSpec Specifica della metrica, che definisce il comportamento della metrica. |
|
(Facoltativo) GroundednessInstance Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) la risposta LLM. |
|
(Facoltativo) Testo in base al tempo di inferenza contenente tutte le informazioni, che possono essere utilizzate nella risposta LLM. |
GroundednessResult
{ "groundedness_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
FulfillmentInput
{ "fulfillment_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
(Facoltativo) Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Istruzione utilizzata al momento dell'inferenza. |
FulfillmentResult
{ "fulfillment_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
SummarizationQualityInput
{ "summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Istruzione utilizzata al momento dell'inferenza. |
|
Facoltativo: Testo in base al tempo di inferenza contenente tutte le informazioni, che possono essere utilizzate nella risposta LLM. |
SummarizationQualityResult
{ "summarization_quality_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
PairwiseSummarizationQualityInput
{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string, } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
(Facoltativo) Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) Risposta del modello LLM di riferimento. |
|
(Facoltativo) Risposta del modello LLM candidato. |
|
(Facoltativo) Istruzione utilizzata al momento dell'inferenza. |
|
Facoltativo: Testo in base al tempo di inferenza contenente tutte le informazioni, che possono essere utilizzate nella risposta LLM. |
PairwiseSummarizationQualityResult
{ "pairwise_summarization_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
SummarizationHelpfulnessInput
{ "summarization_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
(Facoltativo) Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Istruzione utilizzata al momento dell'inferenza. |
|
Facoltativo: Testo in base al tempo di inferenza contenente tutte le informazioni, che possono essere utilizzate nella risposta LLM. |
SummarizationHelpfulnessResult
{ "summarization_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
SummarizationVerbosityInput
{ "summarization_verbosity_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Istruzione utilizzata al momento dell'inferenza. |
|
Facoltativo: Testo in base al tempo di inferenza contenente tutte le informazioni, che possono essere utilizzate nella risposta LLM. |
SummarizationVerbosityResult
{ "summarization_verbosity_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
QuestionAnsweringQualityInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
(Facoltativo) Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Istruzione utilizzata al momento dell'inferenza. |
|
Facoltativo: Testo in base al tempo di inferenza contenente tutte le informazioni, che possono essere utilizzate nella risposta LLM. |
QuestionAnsweringQualityResult
{ "question_answering_quality_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
PairwiseQuestionAnsweringQualityInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
(Facoltativo) Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) Risposta del modello LLM di riferimento. |
|
(Facoltativo) Risposta del modello LLM candidato. |
|
(Facoltativo) Istruzione utilizzata al momento dell'inferenza. |
|
Facoltativo: Testo in base al tempo di inferenza contenente tutte le informazioni, che possono essere utilizzate nella risposta LLM. |
PairwiseQuestionAnsweringQualityResult
{ "pairwise_question_answering_quality_result": { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
QuestionAnsweringRelevanceInput
{ "question_answering_quality_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Istruzione utilizzata al momento dell'inferenza. |
|
Facoltativo: Testo in base al tempo di inferenza contenente tutte le informazioni, che possono essere utilizzate nella risposta LLM. |
QuestionAnsweringRelevancyResult
{ "question_answering_relevancy_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
QuestionAnsweringHelpfulnessInput
{ "question_answering_helpfulness_input": { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Istruzione utilizzata al momento dell'inferenza. |
|
Facoltativo: Testo in base al tempo di inferenza contenente tutte le informazioni, che possono essere utilizzate nella risposta LLM. |
QuestionAnsweringHelpfulnessResult
{ "question_answering_helpfulness_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
QuestionAnsweringCorrectnessInput
{ "question_answering_correctness_input": { "metric_spec": { "use_reference": bool }, "instance": { "prediction": string, "reference": string, "instruction": string, "context": string } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
(Facoltativo) Indica se viene utilizzato o meno il riferimento nella valutazione. |
|
(Facoltativo) Input di valutazione, composto da input di inferenza e risposta corrispondente. |
|
(Facoltativo) la risposta LLM. |
|
Facoltativo: Risposta LLM dorata come riferimento. |
|
(Facoltativo) Istruzione utilizzata al momento dell'inferenza. |
|
Facoltativo: Testo in base al tempo di inferenza contenente tutte le informazioni, che possono essere utilizzate nella risposta LLM. |
QuestionAnsweringCorrectnessResult
{ "question_answering_correctness_result": { "score": float, "explanation": string, "confidence": float } }
Output | |
---|---|
|
|
|
|
|
|
PointwiseMetricInput
{ "pointwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
Parametri | |
---|---|
|
Obbligatorio: Specifica della metrica, che definisce il comportamento della metrica. |
|
Obbligatorio: Un modello di prompt che definisce la metrica. Il rendering viene eseguito dalle coppie chiave-valore in instance.json_instance |
|
Obbligatorio: Input di valutazione, composto da json_instance. |
|
Facoltativo: Le coppie chiave-valore in formato JSON. Ad esempio, {"key_1": "value_1", "key_2": "value_2"}. Viene utilizzato per eseguire il rendering di metric_spec.metric_prompt_template. |
PointwiseMetricResult
{ "pointwise_metric_result": { "score": float, "explanation": string, } }
Output | |
---|---|
|
|
|
|
PairwiseMetricInput
{ "pairwise_metric_input": { "metric_spec": { "metric_prompt_template": string }, "instance": { "json_instance": string, } } }
Parametri | |
---|---|
|
Obbligatorio: Specifica della metrica, che definisce il comportamento della metrica. |
|
Obbligatorio: Un modello di prompt che definisce la metrica. Viene visualizzato dalle coppie chiave-valore in instance.json_instance |
|
Obbligatorio: Input di valutazione, composto da json_instance. |
|
(Facoltativo) Le coppie chiave-valore in formato JSON. Ad esempio, {"key_1": "value_1", "key_2": "value_2"}. Viene utilizzato per eseguire il rendering di metric_spec.metric_prompt_template. |
PairwiseMetricResult
{ "pairwise_metric_result": { "score": float, "explanation": string, } }
Output | |
---|---|
|
|
|
|
ToolCallValidInput
{ "tool_call_valid_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Input di valutazione, composto dalla risposta e dal riferimento dell'LLM. |
|
Facoltativo: Risposta del modello LLM candidato, ovvero una stringa JSON serializzata contenente le chiavi { "content": "", "tool_calls": [ { "name": "book_tickets", "arguments": { "movie": "Mission Impossible Dead Reckoning Part 1", "theater": "Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30", "num_tix": "2" } } ] } |
|
(Facoltativo) Output del modello Golden nello stesso formato della previsione. |
ToolCallValidResults
{ "tool_call_valid_results": { "tool_call_valid_metric_values": [ { "score": float } ] } }
Output | |
---|---|
|
ripetuto |
|
|
ToolNameMatchInput
{ "tool_name_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parametri | |
---|---|
|
Facoltativo: Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Input di valutazione, composto da risposta e riferimento LLM. |
|
Facoltativo: Risposta LLM del modello candidato, ovvero una stringa serializzata JSON contenente chiavi |
|
Facoltativo: Output del modello Golden nello stesso formato della previsione. |
ToolNameMatchResults
{ "tool_name_match_results": { "tool_name_match_metric_values": [ { "score": float } ] } }
Output | |
---|---|
|
ripetuto |
|
|
ToolParameterKeyMatchInput
{ "tool_parameter_key_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parametri | |
---|---|
|
(Facoltativo) Specifica della metrica, che definisce il comportamento della metrica. |
|
Facoltativo: Input di valutazione, composto da risposta e riferimento LLM. |
|
Facoltativo: Risposta LLM del modello candidato, ovvero una stringa serializzata JSON contenente chiavi |
|
Facoltativo: Output del modello Golden nello stesso formato della previsione. |
ToolParameterKeyMatchResults
{ "tool_parameter_key_match_results": { "tool_parameter_key_match_metric_values": [ { "score": float } ] } }
Output | |
---|---|
|
ripetuto |
|
|
ToolParameterKVMatchInput
{ "tool_parameter_kv_match_input": { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parametri | |
---|---|
|
(Facoltativo) Specifica della metrica, che definisce il comportamento della metrica. |
|
(Facoltativo) Input di valutazione, composto da risposta e riferimento LLM. |
|
Facoltativo: Risposta LLM del modello candidato, ovvero una stringa serializzata JSON contenente chiavi |
|
Facoltativo: Output del modello Golden nello stesso formato della previsione. |
ToolParameterKVMatchResults
{ "tool_parameter_kv_match_results": { "tool_parameter_kv_match_metric_values": [ { "score": float } ] } }
Output | |
---|---|
|
ripetuto |
|
|
Esempi
Valuta un output
L'esempio seguente mostra come chiamare l'API Gen AI Evaluation per valutare l'output di un LLM utilizzando una serie di metriche di valutazione, tra cui:
summarization_quality
groundedness
fulfillment
summarization_helpfulness
summarization_verbosity
Python
Valuta un output: qualità di riassunto di coppia
L'esempio seguente mostra come chiamare l'API Gen AI Evaluation Service per valutare l'output di un LLM utilizzando un confronto della qualità di riassunto a coppie.
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- PROJECT_ID: il tuo ID progetto.
- LOCATION: la regione in cui elaborare la richiesta.
- PREDICTION: risposta LLM.
- BASELINE_PREDICTION: risposta del modello LLM del modello di riferimento.
- INSTRUCTION: l'istruzione utilizzata al momento dell'inferenza.
- CONTEXT: testo in fase di inferenza contenente tutte le informazioni pertinenti, che può essere utilizzato nella risposta LLM.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \
Corpo JSON della richiesta:
{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": "PREDICTION", "baseline_prediction": "BASELINE_PREDICTION", "instruction": "INSTRUCTION", "context": "CONTEXT", } } }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/LOCATION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Ottieni il punteggio di rosso
L'esempio seguente chiama l'API Gen AI evaluation service per ottenere il punteggio Rouge
di una previsione, generata da una serie di input. Gli input Rouge utilizzano
metric_spec
, che determina il comportamento della metrica.
REST
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- PROJECT_ID: il tuo ID progetto.
- LOCATION: la regione in cui elaborare la richiesta.
- PREDICTION: risposta LLM.
- REFERENCE: risposta LLM ideale di riferimento.
- ROUGE_TYPE: il calcolo utilizzato per determinare il punteggio rosso. Vedi
metric_spec.rouge_type
per i valori accettabili. - USE_STEMMER: determina se lo stemmer di Porter viene utilizzato per rimuovere i suffissi delle parole al fine di migliorare la corrispondenza. Per i valori accettabili, vedi
metric_spec.use_stemmer
. - SPLIT_SUMMARIES: determina se vengono aggiunte nuove righe tra le frasi
rougeLsum
. Per i valori accettabili, consulta la sezionemetric_spec.split_summaries
.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \
Corpo JSON della richiesta:
{ "rouge_input": { "instances": { "prediction": "PREDICTION", "reference": "REFERENCE.", }, "metric_spec": { "rouge_type": "ROUGE_TYPE", "use_stemmer": USE_STEMMER, "split_summaries": SPLIT_SUMMARIES, } } }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID-/locations/REGION:evaluateInstances \" | Select-Object -Expand Content
Python
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, vedi Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Passaggi successivi
- Per la documentazione dettagliata, vedi Eseguire una valutazione.