Vertex Feature Store とは

Vertex Feature Store(Feature Store)は、ML 特徴の整理、保存、サービングで使用される一元化されたリポジトリを提供します。一元的な featurestore を使用することで、大規模な ML 特徴を効率的に共有、発見、再利用でき、新しい ML アプリケーションの開発とデプロイにかかる時間を短縮できます。Feature Store はフルマネージド ソリューションで、ストレージやコンピューティング リソースなどの基盤となるインフラストラクチャの管理とスケーリングを行います。このソリューションを使用すると、データ サイエンティストは、本番環境に特徴をデプロイする際の課題を気にすることなく、特徴計算のロジックに集中できます。

Feature Store は Vertex AI の統合コンポーネントです。Feature Store は個別に使用することも、Vertex AI ワークフローの一部として使用することもできます。たとえば、Feature Store からデータを取得し、Vertex AI でカスタムモデルや AutoML モデルをトレーニングできます。

概要

Feature Store を使用して featurestore などのリソースを作成し、管理します。featurestore は、特徴とその値を格納する最上位のコンテナです。featurestore を設定するとすぐに、エンジニアリングのサポートなしで特徴の追加や共有ができるようになります。ユーザーは特徴を定義し、さまざまなデータソースから特徴値を取り込む(インポート)ことができます。

許可されたユーザーは、featurestore から値を検索し、取得できます。たとえば、特徴を検索して、ML モデルの作成に必要なトレーニング データをバッチ エクスポートで取得できます。特徴値をリアルタイムで取得して、迅速なオンライン予測を行うこともできます。

利点

Feature Store を使用する前に、特徴値を計算し、その値を BigQuery のテーブルや Cloud Storage のファイルなど、さまざまな場所に保存できます。さらに、ストレージと特徴値の使用量を別々のソリューションで構築し、管理することもできます。Feature Store は ML 特徴のサービングだけでなく、バッチとオンライン用のストレージに対して統合されたソリューションを提供します。以下では、Feature Stores の利点について詳しく説明します。

組織全体で特徴を共有する

featurestore で特徴を作成すると、それをトレーニングまたはサービング タスクを行う他のユーザーとすばやく共有できます。異なるプロジェクトやユースケース用に特徴を再設計する必要はありません。また、中央のリポジトリから特徴の管理と提供を行えるため、組織全体で一貫性のある操作が可能になり、重複排除の労力を軽減できます(ます。特に、価値の高い特徴の場合)。

Feature Store には検索機能とフィルタ機能があります。他のユーザーも既存の特徴を簡単に見つけて再利用できます。特徴ごとに関連するメタデータを表示し、特徴の品質と使用パターンを確認できます。たとえば、特徴の有効な値(特徴カバレッジとも呼ばれます)を持つエンティティの割合、特徴値の統計的分布、特徴の更新間隔を確認できます。

大規模なオンライン サービングのマネージド ソリューション

Feature Store は、オンライン特徴サービング(低レイテンシ サービング)のマネージド ソリューションを提供します。これは、オンライン予測をタイムリーに行うために欠かせない機能です。低レイテンシのデータ サービング インフラストラクチャを構築し、運用する必要はありません。Feature Store がその処理を自動的に行い、必要に応じてスケーリングします。特徴の生成ロジックを作成し、特徴のサービング タスクをオフロードします。これにより、新しい特徴を構築する際の煩雑さが解消され、データ サイエンティストはデプロイを気にせずに作業に集中できるようになります。

トレーニング / サービング スキューの回避

トレーニング / サービング スキューは、本番環境で使用する特徴データの分布が、モデルのトレーニングに使用された特徴データの分布と異なる場合に発生します。このスキューにより、トレーニング中のモデルのパフォーマンスと本番環境のパフォーマンスとの間に矛盾が生じることがよくあります。次の例は、トレーニング / サービング スキューが発生する可能性のあるソースに対して Feature Store がどのように対処するのかを示しています。

  • Feature Store は、特徴値を featurestore に 1 回取り込み、トレーニングとサービングの両方に同じ値を再利用します。featurestore がない場合、トレーニングからサービングまでの間に特徴を生成するために、別のコードパスを使用する場合があります。このため、トレーニングとサービングで特徴値が異なることがあります。
  • Feature Store は、トレーニングの履歴データを取得するポイントインタイム ルックアップを提供します。この機能を使用すると、予測前に使用可能だった特徴値のみを取得できるので、データ漏洩のリスクを軽減できます。

割り当てと上限

Feature Store では割り当てと上限が適用されます。使用量の上限を設定すること、リソースを管理するだけでなく、予期しない使用量の急増から Google Cloud ユーザーのコミュニティを保護できます。予定外の制約が発生しないように、割り当てと上限ページで Feature Store の割り当てを確認してください。たとえば、Feature Store では、1 分あたりに作成可能なオンライン サービス ノードとオンライン サービス リクエストの数に割り当てが設定されています。

次のステップ