Vertex AI の用語集

  • アノテーション セット
    • アノテーション セットには、データセット内でアップロードされたソースファイルに関連付けられたラベルが含まれます。アノテーション セットは、データ型と目標(動画や分類など)の両方に関連付けられます。
  • API エンドポイント
    • API エンドポイントは、ネットワーク アドレスを指定するサービス構成要素であり、サービス エンドポイントとも呼ばれます(例: aiplatform.googleapis.com)。
  • 近似最近傍探索(ANN)
    • 近似最近傍探索(ANN)サービスは、大規模なコーパスで類似したベクトル(より具体的には「エンべディング」)を見つけるための大規模で低レイテンシのソリューションです。
  • アーティファクト
    • アーティファクトは、ML ワークフローによって生成、使用される個別のエンティティまたはデータです。アーティファクトの例としては、データセット、モデル、入力ファイル、トレーニング ログなどがあります。
  • Artifact Registry
    • Artifact Registry は、汎用的なアーティファクト管理サービスです。これは、Google Cloud でコンテナやその他のアーティファクトを管理する場合に推奨されるサービスです。詳細については、Artifact Registry をご覧ください。
  • バッチ予測
    • バッチ予測は、予測リクエストのグループを受け取り、結果を 1 つのファイルに出力します。詳細については、バッチ予測の取得をご覧ください。
  • 境界ボックス
    • 動画フレーム内のオブジェクトの境界ボックスは 2 つの形式、つまり(i)長方形の対角線上の点の場合、x 座標と y 座標のセットで構成される 2 つの頂点を使用する形式(x_relative_min、y_relative_min、x_relative_max、y_relative_max など)か(ii)4 つの頂点すべてを使用する形式のいずれかで指定できます。詳細については、動画データを準備するをご覧ください。
  • 分類指標
    • Vertex AI SDK for Python でサポートされている分類指標は、混同行列と ROC 曲線です。
  • コンテキスト
    • コンテキストは、アーティファクトと実行を単一のクエリ可能なタイプ付きカテゴリにグループ化するために使用されます。コンテキストを使用してメタデータのセットを表すことができます。コンテキストの例としては、ML パイプラインの実行があります。
  • 顧客管理の暗号鍵(CMEK)
    • 顧客管理の暗号鍵(CMEK)は、お客様が Cloud KMS(別名 Storky)で管理する鍵を使用して既存の Google サービスのデータを暗号化できるようにする統合です。Cloud KMS の鍵は、データを保護する鍵暗号鍵です。
  • データセット
    • データセットは、おおまかに構造化データレコード群または非構造化データレコード群と定義されています。詳細については、データセットの作成をご覧ください。
  • エンベディング
    • エンベディングは、データをセマンティックな意味で表すために使用されるベクトルの一種です。エンベディングは通常、ML 技術を使用して作成され、自然言語処理(NLP)やその他の ML アプリケーションで使用されます。
  • イベント
    • イベントは、アーティファクトと実行の関係を記述します。各アーティファクトは 1 つの実行によって生成され、他の実行で使用されることもあります。イベントは、アーティファクトと実行を連結することで、ML ワークフローでアーティファクトの出所を特定するのに役立ちます。
  • 実行
    • 実行とは、個々の ML ワークフロー ステップのレコードで、通常はランタイムのパラメータでアノテーションが付けられています。実行の例としては、データの取り込み、データの検証、モデルのトレーニング、モデルの評価、モデルのデプロイなどがあります。
  • テスト
    • テストは、ユーザーが入力アーティファクトやハイパーパラメータなどのさまざまな構成をグループとして調査できるパイプライン実行に加えて、一連の n 個のテスト実行を格納できるコンテキストです。
  • テスト実行
    • テスト実行には、ユーザー定義の指標、パラメータ、実行、アーティファクト、Vertex リソース(PipelineJob など)を含めることができます。
  • 探索的データ分析
    • 統計における探索的データ分析(EDA)とは、データセットを分析して主な特性を要約するためのアプローチであり、多くの場合視覚的な方法を使います。統計モデルは使用しても、しなくても構いませんが、EDA は主に、正式なモデリングまたは仮説テストタスク以外にデータで何がわかるかを確認するためのものです。
  • 特徴
    • 機械学習(ML)において、特徴とは、ML モデルのトレーニングや予測の入力として使用されるインスタンスまたはエンティティの特性(属性)のことです。
  • 特徴量エンジニアリング
    • 特徴量エンジニアリングとは、機械学習(ML)の元データを ML モデルのトレーニングや予測に使用できる特徴量に変換するプロセスです。
  • 特徴値
    • 特徴値は、インスタンスまたはエンティティの特徴(属性)の実際の測定可能な値に対応します。一意のエンティティの特徴値のコレクションが、エンティティに対応する特徴レコードを表します。
  • 特徴のサービング
    • 特徴のサービングは、トレーニングまたは推論のために保存されている特徴値をエクスポートまたは取得するプロセスです。Vertex AI には、オンライン サービングとオフライン サービングの 2 種類の特徴のサービングがあります。オンライン サービングでは、オンライン予測用に特徴データソースのサブセットの最新の特徴値を取得します。オフラインまたはバッチ サービングでは、ML モデルのトレーニングなどのオフライン処理用に大量の特徴データをエクスポートします。
  • 特徴のタイムスタンプ
    • 特徴のタイムスタンプは、エンティティの特定の特徴レコードから特徴値のセットが生成された時刻を示します。
  • 特徴レコード
    • 特徴レコードは、特定の時点での一意のエンティティの属性を表すすべての特徴値を集約したものです。
  • 特徴レジストリ
    • 特徴レジストリは、オンライン予測に使用する特徴データソースを記録するための中央インターフェースです。
  • 特徴グループ
    • 特徴グループは、BigQuery のソーステーブルまたは特徴データを含むビューに対応する特徴レジストリ リソースです。特徴ビューには特徴が含まれることがあり、データソース内の特徴列の論理グループと考えることができます。
  • 特徴ビュー
    • 特徴ビューは、BigQuery データソースからオンライン ストア インスタンスに具体化された特徴の論理的なコレクションです。特徴ビューは、顧客の特徴データを保存し、定期的に更新します。この特徴データは、BigQuery ソースから定期的に更新されます。特徴ビューは、直接、または特徴レジストリ リソースとの関連付けを通じて特徴データ ストレージに関連付けられます。
  • Google Cloud パイプライン コンポーネント SDK
    • Google Cloud パイプライン コンポーネント(GCPC)SDK には、本番環境の品質、パフォーマンス、使いやすさを備えた一連のビルド済み Kubeflow パイプライン コンポーネントが備わっています。Google Cloud パイプライン コンポーネントを使用して、Kubeflow Pipelines を遵守する Vertex AI Pipelines やその他の ML パイプライン実行バックエンドで ML パイプラインを定義して実行できます。詳細については、をご覧ください。
  • ヒストグラム
    • 一連のデータの変化を棒グラフで表したものです。ヒストグラムでは、単純な数値表では検出が困難なパターンを可視化できます。
  • インデックス
    • 類似度検索でまとめてデプロイされるベクトルの集合。ベクトルはインデックスに追加することも、インデックスから削除することもできます。類似性検索クエリは特定のインデックスに対して発行され、そのインデックス内のベクトルが検索されます。
  • グラウンド トゥルース
    • ML の精度を現実世界と比較して検証することを指す用語。「グラウンド トゥルース データセット」のように使用します。
  • ML Metadata
    • ML Metadata(MLMD)は、ML デベロッパーとデータ サイエンティストのワークフローに関連するメタデータを記録および取得するためのライブラリです。MLMD は TensorFlow Extended(TFX)の核心部ですが、個別に使用できるように設計されています。ほとんどのユーザーは、より広範な TFX プラットフォームの一部として、ノートブックや TensorBoard などでパイプライン コンポーネントの結果を調べる場合にのみ MLMD を操作します。
  • マネージド データセット
    • Vertex AI で作成、ホストされるデータセット オブジェクト。
  • メタデータ リソース
    • Vertex ML Metadata は、ML ワークフローから生成および使用されるメタデータを表すため、グラフに似たデータモデルを公開します。主なコンセプトは、アーティファクト、実行、イベント、コンテキストです。
  • MetadataSchema
    • MetadataSchema は、特定のタイプのアーティファクト、実行、コンテキストのスキーマを記述します。MetadataSchemas は、対応するメタデータ リソースの作成時に Key-Value ペアを検証するために使用されます。スキーマの検証は、リソースと MetadataSchema の間で一致するフィールドに対してのみ実行されます。型スキーマは、OpenAPI Schema Objects として表現します。これは、YAML を使用して記述する必要があります。
  • MetadataStore
    • MetadataStore は、メタデータ リソースの最上位コンテナです。MetadataStore はリージョン化されており、特定の Google Cloud プロジェクトに関連付けられています。通常、組織では各プロジェクト内のメタデータ リソースに対して 1 つの共有 MetadataStore を使用します。
  • ML パイプライン
    • ML パイプラインは移植可能でスケーラブルなコンテナベースの ML ワークフローです。
  • モデル
    • 事前トレーニング済みか否かを問わない、あらゆるモデル。
  • モデルリソース名
    • model のリソース名は、プロジェクト/<PROJECT_ID>/locations/<LOCATION_ID>/models/<MODEL_ID>です。モデルの ID は、Google Cloud コンソールの「Model Registry」ページで確認できます。
  • オフライン ストア
    • オフライン ストアは、最近と過去の特徴データを保存するストレージ設備で、通常は ML モデルのトレーニングに使用されます。オフライン ストアには最新の特徴値も含まれており、オンライン予測にも使用できます。
  • オンライン ストア
    • 特徴管理において、オンライン ストアはオンライン予測のために提供される最新の特徴値を保存するストレージ設備です。
  • パラメータ
    • パラメータは、実行を構成し、実行の動作を規制し、実行の結果に影響を与えるキー付きの入力値です。例としては、学習率、ドロップアウト率、トレーニングの手順の数などがあります。
  • パイプライン
    • ML パイプラインは移植可能でスケーラブルなコンテナベースの ML ワークフローです。
  • パイプライン コンポーネント
    • パイプラインのワークフローの 1 つのステップ(データの前処理、データの変換、モデルのトレーニングなど)を実行する自己完結型の一連のコード。
  • パイプライン ジョブ
    • Vertex Pipelines ジョブに対応する Vertex AI API のリソース。Vertex AI で ML パイプラインを実行するときに、PipelineJob を作成します。
  • パイプライン実行
    • 1 つ以上の Vertex PipelineJob を 1 つのテストに関連付けることができ、テストでは、各 PipelineJob は単一の実行として表現されます。このコンテキストで、実行のパラメータは PipelineJob のパラメータによって推定されます。指標は、その PipelineJob によって生成された system.Metric アーティファクトから推定されます。実行のアーティファクトは、その PipelineJob によって生成されたアーティファクトから推定されます。
  • パイプライン テンプレート
    • 1 人のユーザーまたは複数のユーザーが複数のパイプライン実行を作成するために再利用できる ML ワークフロー定義。
  • 再現率
    • インデックスによって返された正しい最近傍の割合。たとえば、20 個の最近傍に対する最近傍のクエリで、グラウンド トゥルースの最近傍が 19 個返された場合、再現率は 19÷20×100 = 95% となります。
  • 制限
    • ブール値ルールを使用して、インデックスのサブセットに対する検索を「制限」する機能。制限は「フィルタリング」とも呼ばれます。ベクトル検索では、数値フィルタリングとテキスト属性フィルタリングを使用できます。
  • サービス アカウント
    • Google Cloud では、サービス アカウントはユーザーではなく、アプリケーションや仮想マシン(VM)インスタンスによって使用される特別なアカウントです。アプリケーションは、サービス アカウントを使用して、承認された API 呼び出しを行います。
  • サマリー指標
    • サマリー指標は、テスト実行の各指標キーの単一の値です。たとえば、テストのテスト精度は、トレーニング終了時にテスト データセットに対して計算された精度であり、単一の値のサマリー指標として捕捉できます。
  • TensorBoard
    • TensorBoard は、TensorFlow の実行とモデルを可視化して理解するための一連のウェブ アプリケーションです。詳細については、TensorBoard をご覧ください。
  • TensorBoard リソース名
    • TensorBoard リソース名は、Vertex AI TensorBoard インスタンスを完全に識別するために使用されます。形式は projects/PROJECT_ID_OR_NUMBER/locations/REGION/tensorboards/TENSORBOARD_INSTANCE_ID です。
  • TensorBoard インスタンス
    • TensorBoard インスタンスは、プロジェクトに関連付けられた Vertex AI TensorBoard テストを保存するリージョン リソースです。たとえば、CMEK 対応インスタンスを複数希望する場合は、プロジェクトに複数の TensorBoard インスタンスを作成できます。これは、API の TensorBoard リソースと同じです。
  • TensorFlow Extended(TFX)
    • TensorFlow プラットフォームに基づいて本番環境 ML パイプラインをデプロイするためのエンドツーエンド プラットフォーム。
  • 時間オフセット
    • 時間オフセットは、動画の先頭を基準とします。
  • 時間セグメント
    • 時間セグメントは、開始時間と終了時間のオフセットで識別されます。
  • 時系列指標
    • 時系列指標は長期的な指標値であり、その各値は、実行のトレーニング ルーチンの部分の手順を表します。時系列指標は Vertex AI TensorBoard に保存されます。Vertex AI Experiments には、Vertex TensorBoard リソースへの参照が保存されます。
  • トークン
    • 言語モデルのトークンは、モデルがトレーニングと予測を行う場合の原子単位、つまり単語、形態素、文字です。言語モデル以外のドメインでは、トークンは他の種類の原子単位を表すことができます。たとえば、コンピュータ ビジョンでは、トークンは画像のサブセットとなる場合があります。
  • 管理対象外のアーティファクト
    • Vertex AI コンテキスト外に存在するアーティファクト。
  • ベクトル
    • ベクトルは、大きさと方向を持つ浮動小数点値のリストです。数値、空間上の点、方向など、あらゆる種類のデータを表すことができます。
  • Vertex AI Experiments
    • Vertex AI のテストでは、(i)前処理、トレーニングなどのテスト実行のステップ、(ii)アルゴリズム、パラメータ、データセットなどの入力、(iii)モデル、チェックポイント、指標などのテスト実行ステップの出力を追跡できます。
  • Vertex AI TensorBoard のテスト
    • テストに関連付けられたデータは、TensorBoard ウェブ アプリケーション(スカラー、ヒストグラム、分布など)で表示できます。時系列スカラーは Google Cloud コンソールで表示できます。詳細については、実行を比較して分析するをご覧ください。
  • Vertex のデータ型
    • Vertex AI のデータ型は、「画像」、「テキスト」、「表形式」、「動画」です。
  • 動画セグメント
    • 動画セグメントは、動画の開始時間と終了時間のオフセットで識別されます。
  • Virtual Private Cloud(VPC)
    • Virtual Private Cloud は、パブリック クラウド環境に割り当てられた共有コンピューティング リソースのオンデマンド形式の構成可能なプールであり、リソースを使用してさまざまな組織を分離できます。