Mit dem Rapid Eval Service können Nutzer ihre LLM-Modelle sowohl punktweise als auch paarweise über mehrere Messwerte hinweg bewerten. Nutzer stellen Inferenzzeiteingaben, LLM-Antworten und zusätzliche Parameter bereit. Der Dienst gibt dann Messwerte zurück, die für die Bewertungsaufgabe spezifisch sind. Die Messwerte umfassen sowohl modellbasierte Messwerte (z.B. SummarizationQuality) als auch In-Memory-berechnete Messwerte (z.B. Rouge-, Bleu- und Tool-/Funktionsaufruf-Messwerte). Da der Dienst die Vorhersageergebnisse direkt von Modellen als Eingabe verwendet, kann er alle von Vertex unterstützten Modelle bewerten.
Beschränkungen
- Modellbasierte Messwerte verbrauchen text-bison-Kontingente. Rapid Eval Service nutzt text-bison als zugrunde liegendes Arbitermodell, um modellbasierte Messwerte zu berechnen.
- Der Dienst hat eine Übertragungsverzögerung. Er ist nach dem ersten Aufruf des Dienstes möglicherweise mehrere Minuten lang nicht verfügbar.
Syntax
- PROJECT_ID =
PROJECT_ID
- REGION =
REGION
- MODEL_ID =
MODEL_ID
curl
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:evaluateInstances
Python
import json from google import auth from google.api_core import exceptions from google.auth.transport import requests as google_auth_requests creds, _ = auth.default( scopes=['https://www.googleapis.com/auth/cloud-platform']) data = { ... } uri = f'https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:evaluateInstances' result = google_auth_requests.AuthorizedSession(creds).post(uri, json=data) print(json.dumps(result.json(), indent=2))
Parameterliste
Vollständige Liste der verfügbaren Messwerte.
Parameter | |
---|---|
|
Optional: Eingabe, um zu beurteilen, ob die Vorhersage genau mit der Referenz übereinstimmt. |
|
Optional: Eingabe zur Berechnung des BLEU-Scores durch Vergleich der Vorhersage mit der Referenz. |
|
Optional: Eingabe zum Berechnen der |
|
Optional: Eingabe zur Bewertung der Sprachkompetenz einer einzelnen Antwort. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine kohärente, leicht verständliche Antwort zu liefern. |
|
Optional: Eingabe zur Bewertung des Sicherheitsniveaus einer einzelnen Antwort. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, Informationen bereitzustellen oder zu referenzieren, die nur im Eingabetext enthalten sind. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, die Anweisungen vollständig zu erfüllen. |
|
Optional: Eingabe, um allgemein die Fähigkeit einer einzelnen Antwort zu bewerten, Text zusammenzufassen. |
|
Optional: Eingabe zum Vergleich der allgemeinen Qualität von Zusammenfassungen zweier Antworten. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine Zusammenfassung bereitzustellen, die die Details enthält, die zum Ersetzen des Originaltextes erforderlich sind. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine prägnante Zusammenfassung zu liefern. |
|
Optional: Eingabe zur Bewertung der allgemeinen Fähigkeit einer einzelnen Antwort zur Beantwortung von Fragen anhand eines als Referenz dienenden Textkörpers. |
|
Optional: Eingabe für den Vergleich der allgemeinen Fähigkeit zweier Antworten zur Beantwortung von Fragen anhand eines als Referenz dienenden Textkörpers. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, auf die Stellung einer Frage mit relevanten Informationen zu antworten. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, bei der Beantwortung einer Frage wichtige Details zu liefern. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, eine Frage richtig zu beantworten. |
|
Optional: Eingabe zur Bewertung der Fähigkeit einer einzelnen Antwort, einen gültigen Toolaufruf vorherzusagen. |
|
Optional: Eingabe zur Bewertung der Fähigkeit einer einzelnen Antwort, einen Toolaufruf mit dem richtigen Toolnamen vorherzusagen. |
|
Optional: Eingabe, um die Fähigkeit einer einzelnen Antwort zu bewerten, einen Toolaufruf mit den richtigen Parameternamen vorherzusagen. |
|
Optional: Eingabe zur Bewertung der Fähigkeit einer einzelnen Antwort, einen Toolaufruf mit den richtigen Parameternamen und -werten vorherzusagen |
ExactMatchInput
{ "exact_match_input: { "metric_spec": {}, "instances": [ { "prediction": string, "reference": string } ] } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz. |
ExactMatchResults
{ "exact_match_results: { "exact_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
Bewertungsergebnisse pro Instanzeingabe. |
|
Eines der folgenden Betriebssysteme:
|
BleuInput
{ "bleu_input: { "metric_spec": {}, "instances": [ { "prediction": string, "reference": string } ] } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz. |
BleuResults
{ "bleu_results: { "bleu_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
Bewertungsergebnisse pro Instanzeingabe. |
|
|
RougeInput
{ "rouge_input: { "metric_spec": { "rouge_type": string, "use_stemmer": bool, "split_summaries": bool }, "instances": [ { "prediction": string, "reference": string } ] } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Zulässige Werte:
|
|
Optional: Gibt an, ob der Porter-Stemmer zum Entfernen von Wortsuffixen verwendet werden soll, um die Übereinstimmung zu verbessern. |
|
Optional: Gibt an, ob Zeilenumbrüche zwischen Sätzen für rougeLsum hinzugefügt werden sollen. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz. |
RougeResults
{ "rouge_results: { "rouge_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
Bewertungsergebnisse pro Instanzeingabe. |
|
|
FluencyInput
{ "fluency_input: { "metric_spec": {}, "instance": { "prediction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, die aus der LLM-Antwort besteht. |
|
Optional: LLM-Antwort. |
FluencyResult
{ "fluency_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
CoherenceInput
{ "coherence_input: { "metric_spec": {}, "instance": { "prediction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, die aus der LLM-Antwort besteht. |
|
Optional: LLM-Antwort. |
CoherenceResult
{ "coherence_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SafetyInput
{ "safety_input: { "metric_spec": {}, "instance": { "prediction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, die aus der LLM-Antwort besteht. |
|
Optional: LLM-Antwort. |
SafetyResult
{ "safety_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
GroundednessInput
{ "groundedness_input: { "metric_spec": {}, "instance": { "prediction": string, "context": string } } }
Parameter |
Beschreibung |
|
Optional: GroundednessSpec Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: GroundednessInstance Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
GroundednessResult
{ "groundedness_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
FulfillmentInput
{ "fulfillment_input: { "metric_spec": {}, "instance": { "prediction": string, "instruction": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Zum Zeitpunkt der Inferenz verwendete Anweisung. |
FulfillmentResult
{ "fulfillment_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SummarizationQualityInput
{ "summarization_quality_input: { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Zum Zeitpunkt der Inferenz verwendete Anweisung. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
SummarizationQualityResult
{ "summarization_quality_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
PairwiseSummarizationQualityInput
{ "pairwise_summarization_quality_input: { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort des Basismodells. |
|
Optional: LLM-Antwort des Kandidatenmodells. |
|
Optional: Zum Zeitpunkt der Inferenz verwendete Anweisung. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
PairwiseSummarizationQualityResult
{ "pairwise_summarization_quality_result: { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SummarizationHelpfulnessInput
{ "summarization_helpfulness_input: { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Zum Zeitpunkt der Inferenz verwendete Anweisung. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
SummarizationHelpfulnessResult
{ "summarization_helpfulness_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
SummarizationVerbosityInput
{ "summarization_verbosity_input: { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Zum Zeitpunkt der Inferenz verwendete Anweisung. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
SummarizationVerbosityResult
{ "summarization_verbosity_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringQualityInput
{ "question_answering_quality_input: { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string, } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Zum Zeitpunkt der Inferenz verwendete Anweisung. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringQualityResult
{ "question_answering_quality_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
PairwiseQuestionAnsweringQualityInput
{ "question_answering_quality_input: { "metric_spec": {}, "instance": { "baseline_prediction": string, "prediction": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort des Basismodells. |
|
Optional: LLM-Antwort des Kandidatenmodells. |
|
Optional: Zum Zeitpunkt der Inferenz verwendete Anweisung. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
PairwiseQuestionAnsweringQualityResult
{ "pairwise_question_answering_quality_result: { "pairwise_choice": PairwiseChoice, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringRelevanceInput
{ "question_answering_quality_input: { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Zum Zeitpunkt der Inferenz verwendete Anweisung. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringRelevancyResult
{ "question_answering_relevancy_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringHelpfulnessInput
{ "question_answering_helpfulness_input: { "metric_spec": {}, "instance": { "prediction": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Zum Zeitpunkt der Inferenz verwendete Anweisung. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringHelpfulnessResult
{ "question_answering_helpfulness_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
QuestionAnsweringCorrectnessInput
{ "question_answering_correctness_input: { "metric_spec": { "use_reference": bool }, "instance": { "prediction": string, "reference": string, "instruction": string, "context": string } } }
Parameter | |
---|---|
|
Optional: |
|
Optional: Ob eine Referenz in der Bewertung verwendet wird oder nicht. |
|
Optional: Bewertungseingabe, bestehend aus Inferenzeingaben und entsprechender Antwort. |
|
Optional: LLM-Antwort. |
|
Optional: Goldene LLM-Antwort als Referenz. |
|
Optional: Zum Zeitpunkt der Inferenz verwendete Anweisung. |
|
Optional: Inferenzzeittext, der alle Informationen enthält, die in der LLM-Antwort verwendet werden können. |
QuestionAnsweringCorrectnessResult
{ "question_answering_correctness_result: { "score": float, "explanation": string, "confidence": float } }
Ausgabe | |
---|---|
|
|
|
|
|
|
ToolCallValidInput
{ "tool_call_valid_input: { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, bei der es sich um einen JSON-serialisierten String handelt, der die Schlüssel { "content": "", "tool_calls": [ { "name": "book_tickets", "arguments": { "movie": "Mission Impossible Dead Reckoning Part 1", "theater": "Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30", "num_tix": "2" } } ] } |
|
Optional: Ausgabe des goldenen Modells im selben Format wie die Vorhersage. |
ToolCallValidResults
{ "tool_call_valid_results: { "tool_call_valid_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
ToolNameMatchInput
{ "tool_name_match_input: { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, bei der es sich um einen JSON-serialisierten String handelt, der die Schlüssel |
|
Optional: Ausgabe des goldenen Modells im selben Format wie die Vorhersage. |
ToolNameMatchResults
{ "tool_name_match_results: { "tool_name_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
ToolParameterKeyMatchInput
{ "tool_parameter_key_match_input: { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, bei der es sich um einen JSON-serialisierten String handelt, der die Schlüssel |
|
Optional: Ausgabe des goldenen Modells im selben Format wie die Vorhersage. |
ToolParameterKeyMatchResults
{ "tool_parameter_key_match_results: { "tool_parameter_key_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
ToolParameterKVMatchInput
{ "tool_parameter_kv_match_input: { "metric_spec": {}, "instance": { "prediction": string, "reference": string } } }
Parameter | |
---|---|
|
Optional: Messwertspezifikation, die das Verhalten des Messwerts definiert. |
|
Optional: Bewertungseingabe, bestehend aus LLM-Antwort und Referenz. |
|
Optional: LLM-Antwort des Kandidatenmodells, bei der es sich um einen JSON-serialisierten String handelt, der die Schlüssel |
|
Optional: Ausgabe des goldenen Modells im selben Format wie die Vorhersage. |
ToolParameterKVMatchResults
{ "tool_parameter_kv_match_results: { "tool_parameter_kv_match_metric_values": [ { "score": float } ] } }
Ausgabe | |
---|---|
|
wiederholt |
|
|
Beispiele
- PROJECT_ID =
PROJECT_ID
- REGION =
REGION
Qualität der paarweisen Zusammenfassung
Hier zeigen wir Ihnen, wie Sie die Rapid Eval API aufrufen, um die Ausgabe eines LLM zu bewerten. In diesem Fall führen wir einen Qualitätsvergleich der paarweisen Zusammenfassung aus.
curl
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:evaluateInstances \ -d '{ "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": "France is a country located in Western Europe.", "baseline_prediction": "France is a country.", "instruction": "Summarize the context.", "context": "France is a country located in Western Europe. It'\''s bordered by Belgium, Luxembourg, Germany, Switzerland, Italy, Monaco, Spain, and Andorra. France'\''s coastline stretches along the English Channel, the North Sea, the Atlantic Ocean, and the Mediterranean Sea. Known for its rich history, iconic landmarks like the Eiffel Tower, and delicious cuisine, France is a major cultural and economic power in Europe and throughout the world.", } } }'
Python
import json from google import auth from google.api_core import exceptions from google.auth.transport import requests as google_auth_requests creds, _ = auth.default( scopes=['https://www.googleapis.com/auth/cloud-platform']) data = { "pairwise_summarization_quality_input": { "metric_spec": {}, "instance": { "prediction": "France is a country located in Western Europe.", "baseline_prediction": "France is a country.", "instruction": "Summarize the context.", "context": ( "France is a country located in Western Europe. It's bordered by " "Belgium, Luxembourg, Germany, Switzerland, Italy, Monaco, Spain, " "and Andorra. France's coastline stretches along the English " "Channel, the North Sea, the Atlantic Ocean, and the Mediterranean " "Sea. Known for its rich history, iconic landmarks like the Eiffel " "Tower, and delicious cuisine, France is a major cultural and " "economic power in Europe and throughout the world." ), } } } uri = f'https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:evaluateInstances' result = google_auth_requests.AuthorizedSession(creds).post(uri, json=data) print(json.dumps(result.json(), indent=2))
ROUGE
Als Nächstes rufen wir die API auf, um die ROUGE-Scores einer Vorhersage anhand einer Referenz abzurufen.
curl
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:evaluateInstances \ -d '{ "rouge_input": { "instances": { "prediction": "A fast brown fox leaps over a lazy dog.", "reference": "The quick brown fox jumps over the lazy dog.", }, "instances": { "prediction": "A quick brown fox jumps over the lazy canine.", "reference": "The quick brown fox jumps over the lazy dog.", }, "instances": { "prediction": "The speedy brown fox jumps over the lazy dog.", "reference": "The quick brown fox jumps over the lazy dog.", }, "metric_spec": { "rouge_type": "rougeLsum", "use_stemmer": true, "split_summaries": true } } }'
Python
import json from google import auth from google.api_core import exceptions from google.auth.transport import requests as google_auth_requests creds, _ = auth.default( scopes=['https://www.googleapis.com/auth/cloud-platform']) data = { "rouge_input": { "metric_spec": { "rouge_type": "rougeLsum", "use_stemmer": True, "split_summaries": True }, "instances": [ { "prediction": "A fast brown fox leaps over a lazy dog.", "reference": "The quick brown fox jumps over the lazy dog.", }, { "prediction": "A quick brown fox jumps over the lazy canine.", "reference": "The quick brown fox jumps over the lazy dog.", }, { "prediction": "The speedy brown fox jumps over the lazy dog.", "reference": "The quick brown fox jumps over the lazy dog.", } ] } } uri = f'https://${REGION}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${REGION}:evaluateInstances' result = google_auth_requests.AuthorizedSession(creds).post(uri, json=data) print(json.dumps(result.json(), indent=2))