Vertex AI Feature Store(従来版)の概要

Vertex AI Feature Store(従来版)には、ML の特徴を整理、保存、提供するための一元化されたリポジトリが用意されています。一元的な featurestore を使用することで、組織で大規模な ML 特徴を効率的に共有、発見、再利用でき、新しい ML アプリケーションの開発とデプロイにかかる時間を短縮できます。

Vertex AI Feature Store(従来版)はフルマネージド ソリューションで、ストレージやコンピューティング リソースなどの基盤となるインフラストラクチャの管理とスケーリングを行います。このソリューションを使用すると、データ サイエンティストは、本番環境に特徴をデプロイする際の課題を気にすることなく、特徴計算のロジックに集中できます。

Vertex AI Feature Store(従来版)は Vertex AI の一部として統合されており、個別に使用することも、Vertex AI ワークフローの一部として使用することもできます。たとえば、Vertex AI Feature Store(従来版)からデータを取得し、Vertex AI でカスタムモデルや AutoML モデルをトレーニングできます。

Vertex AI Feature Store(従来版)は、Vertex AI Feature Store の前身になります。Vertex AI Feature Store の詳細については、Vertex AI Feature Store のドキュメントをご覧ください。

概要

Vertex AI Feature Store(従来版)は、featurestore、エンティティ タイプ、特徴の作成と管理に使用します。featurestore は、特徴とその値を格納する最上位のコンテナです。featurestore を設定すると、許可されたユーザーが、エンジニアリングのサポートなしで特徴の追加や共有ができるようになります。ユーザーは特徴を定義し、さまざまなデータソースから特徴値をインポートする(取り込む)ことができます。Vertex AI Feature Store(従来版)のデータモデルとリソースの詳細をご覧ください

許可されたユーザーは、featurestore から値を検索し、取得できます。たとえば、特徴を検索して、ML モデルの作成に必要なトレーニング データをバッチ エクスポートで取得できます。特徴値をリアルタイムで取得して、迅速なオンライン予測を行うこともできます。

利点

Vertex AI Feature Store(従来版)を使用する前は、特徴値を計算し、その値を BigQuery のテーブルや Cloud Storage のファイルなど、さまざまな場所に保存していた可能性があります。また、ストレージと特徴値の使用量を別々のソリューションで構築し、管理していた可能性もあります。これに対し、Vertex AI Feature Store(従来版)では、バッチとオンライン用ストレージに加え、ML 特徴の提供を統合したソリューションを実現します。以降のセクションでは、Vertex AI Feature Stores(従来版)の利点について詳しく説明します。

組織全体で特徴を共有する

featurestore で特徴を作成すると、それをトレーニングまたはサービング タスクを行う他のユーザーとすばやく共有できます。異なるプロジェクトやユースケース用に特徴を再設計する必要はありません。また、中央リポジトリから特徴の管理と提供を行えるため、組織全体で一貫性のある操作が可能になり、特に価値の高い特徴に対して、重複した作業を軽減できます。

Vertex AI Feature Store(従来版)には、検索機能とフィルタ機能が用意されており、他のユーザーが既存の特徴を見つけて再利用できます。特徴ごとに関連するメタデータを表示し、特徴の品質と使用パターンを確認できます。たとえば、特徴の有効な値(特徴カバレッジとも呼ばれます)を持つエンティティの割合や特徴値の統計的分布を確認できます。

大規模なオンライン サービングのマネージド ソリューション

Vertex AI Feature Store(従来版)は、オンラインの特徴サービング(低レイテンシ サービング)のマネージド ソリューションを提供します。これは、オンライン予測をタイムリーに行うために欠かせない機能です。ユーザーは、低レイテンシのデータ サービング インフラストラクチャを構築して運用する必要がありません。Vertex AI Feature Store(従来版)がユーザーに代わってこれを行い、必要に応じてスケーリングします。特徴の生成ロジックを作成し、特徴のサービング タスクをオフロードします。これにより、新しい特徴を構築する際の煩雑さが解消され、データ サイエンティストはデプロイを気にせずに作業に集中できるようになります。

トレーニング / サービング スキューの回避

トレーニング / サービング スキューは、本番環境で使用する特徴データの分布が、モデルのトレーニングに使用された特徴データの分布と異なる場合に発生します。このスキューにより、トレーニング中のモデルのパフォーマンスと本番環境のパフォーマンスとの間に矛盾が生じることがよくあります。次の例では、トレーニング サービング スキューの潜在的な原因に Vertex AI Feature Store(従来版)がどのように対処できるかを示します。

  • Vertex AI Feature Store(従来版)は、特徴値を featurestore に 1 回インポートし、トレーニングとサービングの両方で同じ値が再利用されるようにします。featurestore がない場合、トレーニングからサービングまでの間に特徴を生成するために、別のコードパスを使用する場合があります。そのため、トレーニングとサービング時で特徴値が異なることがあります。
  • Vertex AI Feature Store(従来版)は、トレーニングの履歴データを取得するポイントインタイム ルックアップを備えています。このようなルックアップにより、予測の後ではなく事前に取得した特徴値のみを取得することで、データ漏洩のリスクを軽減できます。

トレーニング サービング スキューを検出する方法の詳細については、特徴値の異常を表示するをご覧ください。

ブレの検出

Vertex AI Feature Store(従来版)は、特徴データの分布の経時変化(ブレ)を検出するうえで役立ちます。Vertex AI Feature Store(従来版)は、featurestore に取り込まれた特徴値の分布を常に追跡します。特徴のブレが増加すると、影響を受ける特徴を使用しているモデルの再トレーニングが必要になる場合があります。ブレを検出する方法については、特徴値の異常を表示するをご覧ください。

割り当てと上限

Vertex AI Feature Store(従来版)では割り当てと上限が適用されます。使用量の上限を設定すること、リソースを管理するだけでなく、予期しない使用量の急増から Google Cloud ユーザーのコミュニティを保護できます。予定外の制約が発生しないように、割り当てと上限ページで Vertex AI Feature Store(従来版)の割り当てを確認してください。たとえば、Vertex AI Feature Store(従来版)では、オンライン サービス ノード数の割り当てと 1 分あたりに作成可能なオンライン サービス リクエスト数の割り当てが設定されています。

データの保持

Vertex AI Feature Store は、データ保持上限まで特徴値を保持します。この上限は、値がインポートされた日時ではなく、特徴値に関連付けられたタイムスタンプに基づいています。Vertex AI Feature Store(従来版)は、タイムスタンプが上限を超える値を削除するようにスケジュールを設定します。

料金

Vertex AI Feature Store(従来版)の料金は、保存するデータの量や featurestore のオンライン ノード数など、複数の要因によって決まります。featurestore を作成するとすぐに料金が発生します。詳細については、Vertex AI Feature Store(従来版)の料金をご覧ください。

次のステップ