A/B テストの実施に関する一般的なガイダンス

このページでは、A/B テストを使用して、Vertex AI Search for Retail がビジネスに与える影響を理解する方法について説明します。

概要

A/B テストは、テストグループとコントロール グループという 2 つのグループを使用した無作為抽出テストです。テストグループは、別の処理(この場合は予測または Vertex AI Search for Retail からの検索結果)を受け取ります。コントロール グループでは反映されません。

A/B テストを実施する場合は、ユーザー イベントの記録時にユーザーがどのグループに属しているかに関する情報を含めます。この情報は、モデルの絞り込みや指標の提供に使用されます。

アプリケーションの両方のバージョンが同じである必要がありますが、テストグループのユーザーには Vertex AI Search for Retail によって生成された結果が表示され、コントロール グループは表示されません。両方のグループのユーザー イベントをログに記録します。

トラフィック分割の詳細については、App Engine ドキュメントのトラフィックの分割をご覧ください。

テスト プラットフォーム

Google オプティマイズOptimizely などのサードパーティのテスト プラットフォームを使用してテストを設定します。コントロール グループとテストグループはそれぞれ、そのプラットフォームから固有のテスト ID を取得します。ユーザー イベントを記録する際は、experimentIds フィールドにテスト ID を含めて、ユーザーが所属するグループを指定します。テスト ID を指定すると、コントロール グループとテストグループで確認されたアプリケーションのバージョンの指標を比較できます。

A/B テストのベスト プラクティス

A/B テストの目的は、サイトの更新の影響(この場合は Vertex AI Search for Retail の使用)を正確に判断することです。影響を正確に測定するには、テスト結果に他の違いが入らず、影響を受けないように、テストを正しく設計して実施する必要があります。

有意義な A/B テストを設計するには、次のヒントを使用してください。

  • A/B テストを設定する前に、予測または検索プレビューを使用して、モデルが予期したとおりに動作することを確認します。

  • テストグループとコントロール グループに対して、サイトの動作が同じであることを確認します。

    サイトの動作には、レイテンシ、表示形式、テキスト形式、ページ レイアウト、画質、画像サイズが含まれます。コントロール グループとテストグループのエクスペリエンスの間でこれらの属性のいずれにも明確な違いはありません。

  • Vertex AI Search for Retail から返される場合は結果を受け入れて表示し、返される順序と同じ順序で表示します。

    在庫切れのアイテムの除外は、受け入れ可能です。ただし、ビジネスルールに基づいた結果のフィルタリングまたは順序付けはしないでください。

  • ユーザー イベントにアトリビューション トークンを含める場合は、それが正しく設定されていることを確認してください。詳しくは、属性トークンのドキュメントをご覧ください。

  • レコメンデーションまたは検索結果をリクエストする際に指定するサービス構成が、そのレコメンデーションまたは検索結果の意図と一致し、結果を表示する場所が一致していることを確認してください。

    レコメンデーションを使用する場合、サービス構成は、モデルのトレーニング方法、つまり推奨される商品に影響します。詳細

  • 既存のソリューションを Vertex AI Search for Retail と比較する場合は、コントロール グループ エクスペリエンスをテストグループ エクスペリエンスから厳密に切り離します。

    コントロール ソリューションがレコメンデーションや検索結果を提供しない場合は、コントロール ページで Vertex AI Search for Retail から提供しないようにしてください。これを行うと、テスト結果が不正確になります。

    ユーザーがコントロール グループとテストグループを切り替えないようにしてください。これは同じセッション内では特に重要ですが、セッション間でも推奨されます。これにより、テストのパフォーマンスが向上し、統計的に有意な A/B テストの結果を迅速に取得できます。