チュートリアル: コンソールを使用して評価を行う

Google Google Cloud コンソールを使用して Gen AI Evaluation Service を始める方法について学習します。

始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Make sure that you have the following role or roles on the project: Storage Admin

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      IAM に移動
    2. プロジェクトを選択します。
    3. [ アクセスを許可] をクリックします。
    4. [新しいプリンシパル] フィールドに、ユーザー ID を入力します。 これは通常、Google アカウントのメールアドレスです。

    5. [ロールを選択] リストでロールを選択します。
    6. 追加のロールを付与するには、 [別のロールを追加] をクリックして各ロールを追加します。
    7. [保存] をクリックします。
  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Make sure that you have the following role or roles on the project: Storage Admin

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      IAM に移動
    2. プロジェクトを選択します。
    3. [ アクセスを許可] をクリックします。
    4. [新しいプリンシパル] フィールドに、ユーザー ID を入力します。 これは通常、Google アカウントのメールアドレスです。

    5. [ロールを選択] リストでロールを選択します。
    6. 追加のロールを付与するには、 [別のロールを追加] をクリックして各ロールを追加します。
    7. [保存] をクリックします。
  8. モデルを評価する

    モデルを評価する手順は次のとおりです。

    1. Google Cloud コンソールで、[Gen AI 評価] ページに移動します。

      [評価] に移動

    2. [新しい評価] をクリックして、評価ページを開きます。

    3. [評価データセットを定義する] で、オプションを選択します。

      • ファイルをアップロード: [アップロード] をクリックして、CSV ファイルまたは JSONL ファイルをアップロードします。データセットには、プロンプト テンプレートで使用するプロンプトまたはレコードと、必要に応じてモデルのレスポンスを含める必要があります。最大 200 行です。

      • データを生成: プロンプト テンプレートを入力して、Gen AI Evaluation Service がデータセットを生成する際のガイドにします。プロンプト テンプレートで定義した変数が生成され、データセットに設定されます。詳細については、プロンプト テンプレートを使用するをご覧ください。

        1. 生成する変数を定義する: 生成する変数と、生成をガイドする変数の説明を指定します。必要に応じて、[別の変数説明を追加] をクリックします。

        2. 生成するサンプル数を入力します。

        3. [データセットを生成してプレビュー] をクリックして、プロンプト テンプレートと変数に基づいて生成されたデータセットを表示します。データセットを調整するには、変数説明に詳細を追加して、[再生成] をクリックします。

      • モデルログを使用する: 選択したモデルのログに記録されたトラフィックのプロンプトとレスポンスのスナップショットを使用します。このオプションは、Vertex AI にデプロイされたモデルでリクエスト / レスポンス ログが有効になっている場合にのみ使用できます。ロギングを有効にしたばかりの場合は、十分なサンプルが蓄積されるまで待ちます。

        1. トラフィックをロギングする [モデル] と [リージョン] を選択します。選択したモデルとリージョンでロギングがすでに有効になっている必要があります。

        2. [サンプリング数] を入力します。

        3. (省略可)[プロンプト テンプレートでフィルタ] を有効にして、プロンプト テンプレートに一致するログのみを使用します。これは、選択したモデルをさまざまなユースケースで使用し、特定のユースケースを評価する場合に便利です。

    4. [評価するモデルのレスポンスを定義する] で、次のいずれかのオプションを選択します。

      • データセットから([評価データセットを定義する] で [ファイルをアップロードする] を選択した場合にのみ使用可能): アップロードしたデータセットのフィールドの 1 つをレスポンスとして使用する場合は、[レスポンス列] を選択します。

      • モデルから([評価データセットを定義する] で [モデルログを使用する] を選択した場合のみ使用可能): モデルログを評価データセットとして使用している場合、Gen AI Evaluation Service はモデルログのモデル レスポンスを使用します。

      • 通話モデル: モデルを選択します。Gen AI Evaluation Service は、選択したモデルでプロンプトを実行し、レスポンスを評価に使用します。

    5. (省略可)自動生成された評価指標で、カスタム手順を指定して、各プロンプトから生成されるルーブリックをガイドできます。例: Evaluate the dataset on cultural sensitivity to the countries {name}。詳細については、評価指標を定義するをご覧ください。

    6. [名前と出力ディレクトリ] に、次のように入力します。

      1. 評価名: 評価の名前を入力します。

      2. 出力のプライベート データパス: 評価を保存する Cloud Storage バケットの名前を入力するか、[参照] をクリックしてバケットを選択します。

    7. [評価] をクリックします。

    評価結果を表示する

    評価結果を表示するには:

    1. Google Cloud コンソールで、[Gen AI 評価] ページに移動します。

      [評価] に移動

    2. 評価名をクリックします。

    3. 評価データセット内の各プロンプトに対して、モデルのレスポンスが評価結果とともに表示されます。

    次のステップ