Dataplex 用語集

Dataplex は、データとサービスの一元管理により、分析のエンドツーエンドのプロセスを統合します。この用語集では、管理システム内で使用される用語を定義します。

用語集のリスト

操作

ユーザーが対処できる問題。次に例を示します。

  • ユーザーが指定したセキュリティ グループが存在しないため、セキュリティ ポリシーの伝播に失敗した。
  • Dataplex はマネージド リソースにアクセスできません。
  • 検出ジョブがさまざまな理由で失敗した(ユーザーが修正できます)。これは、無効なデータ形式、パーティション間の互換性のないスキーマ、パーティション名の不整合などのユーザーデータの問題が原因で発生することがあります。

アクションは Dataplex によって自動的に生成されます。一部のアクションは、根本的な問題がユーザーによって解決されたことが検出された場合、Dataplex によって自動的にクリアされます。その他のアクションは、ユーザーが解決済みとして明示的にマークする必要があります。

たとえば、検出アクションがユーザーによって処理されたら、Dataplex API を呼び出してアクションを解決済みとしてマークし、検出システムが一時停止を解除して直ちに検出実行をスケジュールできるようにする必要があります。

アセット

アセットは、Dataplex 内の単一のマネージド リソース(バケット/データセット)を表します。また、マネージド リソースとサブシステム(検出、ポリシー管理など)のさまざまな構成のプレースホルダでもあります。

BigQuery

BigQuery は、Google Cloud のペタバイト規模の費用対効果に優れたフルマネージド型の分析データ ウェアハウスです。膨大な量のデータに対してほぼリアルタイムで分析を行うことができます。

BigQuery には、設定や管理を必要とするインフラストラクチャが存在しないため、標準 SQL を使用し、オンデマンドと定額料金のオプション全般にわたるフレキシブルな料金モデルのメリットを活用することで有意な分析情報を見つけることに集中できます。詳細

データ

マネージド リソース内のユーザーデータ。たとえば、バケット内の Cloud Storage オブジェクトや、データセット内の BigQuery テーブル行などです。Cloud Storage の場合、オブジェクトはユーザーデータの不変の単位です。BigQuery データセットの場合、子テーブル内の行はユーザーデータと見なされます。

Data Catalog

Data Catalog は、フルマネージドでスケーラブルなメタデータ管理サービスです。このサービスを利用すれば、Google Cloud 内のすべてのデータをすばやく検出、管理、把握できます。詳細

Dataplex サービス アカウント

サービス エージェントを表します。これは、Dataplex に代わってさまざまなアクションを実行するサービス アカウントの一種です。たとえば、検出システムとポリシー管理システムはサービス エージェントに依存しています。

サービス エージェントがジョブを実行するには、ユーザーが管理するリソースとプロジェクトに対するさまざまな IAM 権限が必要です。一部のロールについては、プロジェクトで Dataplex を有効にする際に自動的に付与されます。その他の権限(別のプロジェクトからバケットをアタッチするなど)は、ユーザーが手動で付与する必要があります。

Dataproc Metastore

Dataproc Metastore は、フルマネージドで、高可用性のある、自動スケーリング機能、自動修復機能を備えた OSS ネイティブのメタストア サービスであり、技術的なメタデータ管理を大幅に簡素化します。Dataproc Metastore サービスは Apache Hive メタストアに基づいており、エンタープライズ データレイクに向けた不可欠なコンポーネントとして機能します。詳細

Discovery

ユーザーデータのクロールとメタデータの抽出を担当するサブシステム。

エントリ グループ

エントリ グループにはエントリが含まれます。エントリ グループとは、論理的に関連するエントリのセットで、そのエントリ グループ内のエントリを作成、編集、表示できるユーザーを指定する Identity and Access Management ポリシーも含まれています。

ファイルセット

ファイルセットは、ユーザーが作成したエントリ グループ内のエントリです。1 つ以上の一連の Cloud Storage ファイルを指定する 1 つ以上のファイル パターンによって定義されます。ファイルセット エントリは、Cloud Storage ファイルの整理と検出、メタデータの追加に使用できます。

レイク

レイクは、多くのクラウド プロジェクトに分散され、Cloud Storage や BigQuery などのさまざまなストレージ サービスに保存されている、組織全体のエンタープライズ データを管理するための一元化されたリポジトリです。レイクに接続されているリソースは、マネージド リソースと呼ばれます。これらのマネージド リソース内のデータは、構造化データまたは非構造化データのいずれかです。

レイクは、データ管理者に大規模なデータの整理、保護、管理を行うためのツールを提供し、データ サイエンティストとデータ エンジニアに、データと関連メタデータを簡単に検索、検出、分析、変換するための統合されたエクスペリエンスを提供します。

Logs

Dataplex によって提供される Stackdriver のログ。これにより、ユーザーはレイクの仕組みを把握し、デバッグを実行したり、アラートを設定したりできます。たとえば、次のようなログです。

  • 注意が必要なサーフェス アクション
  • サーフェス メタデータの変更
  • ジョブ実行の概要を表示する
  • サーフェス検出ジョブのアクション(ファイルの読み取り、書き込みなど)

メタデータ

検出システムによってユーザーデータから抽出された情報。たとえば、Cloud Storage バケット名、BigQuery データセットのプロパティ、子 BigQuery テーブルのスキーマなどです。

メタデータには次の 2 種類があります。

  • スキーマなどのテクニカル メタデータ
  • データ統計情報(Cloud Storage 内のオブジェクトの合計数とサイズ)などのオペレーショナル メタデータ

指標

指標は、Dataplex によって公開 API として公開される Stackdriver 指標を表します。ユーザーは、これらの指標を使用して Stackdriver アラートを設定したり、グラフで可視化したりできます。特定の Dataplex 指標の詳細については、Dataplex の Cloud Monitoring をご覧ください。

設定の反映期間(プロパゲーション)

特定のリソース構成を変更すると、バックグラウンドの非同期プロセスが開始され、マネージド リソースの状態がユーザーが指定した状態と調整されます。たとえば、レイクで指定したセキュリティ構成を、そのレイクで潜在的に数千のマネージド リソース(バケット/データセット)の IAM ポリシーに伝播する必要があります。これは、API の呼び出し時にすぐには行われません。このプロセスを「伝播」と呼びます。

伝播のステータスは、関連するステータス フィールドに反映され、エラーはアクションを介して表示されます。

リソース

Dataplex リソース

Dataplex サービスによって定義された Google Cloud リソース(レイク、データゾーン、アセットなど)。

子リソース

マネージド リソースの子リソース。たとえば、Cloud Storage オブジェクト、BigQuery テーブル、ルーティン、モデルなど。子リソースのポリシー管理は Dataplex から直接行われませんが、有効なポリシーは親から継承されたものに影響されます。

マネージド リソース

Dataplex を介して管理および検出できる Google Cloud リソース。現在、Cloud Storage バケットと BigQuery データセットです。マネージド リソースはレイクとは異なるプロジェクトに属していてもかまいません。ただし、同じ組織に属している必要があります。

Spec

ユーザーが指定した仕様。次に例を示します。

  • セキュリティ仕様では、レイク、ゾーン、アセットのセキュリティ構成を指定します。
  • アセットのリソース仕様では、マネージド リソース(バケット/データセット)へのポインタを指定します。
  • ディスカバリ仕様では、アセットの検出構成を指定します。

ステータス

ユーザーが指定した仕様のステータスを表します。次に例を示します。

  • セキュリティ ステータスは、基盤となるバケットまたはデータセットへのセキュリティ ポリシー(セキュリティ仕様など)の伝播のステータスを表します。
  • リソースのステータスは、リソース仕様で指定されたマネージド リソースのステータス(OK / 見つからない / 権限が拒否されたなど)を表します。
  • 検出ステータスは、検出ジョブのステータスを表します。このステータスは、検出仕様によって決まります。

Table

マネージド リソース内のデータ(またはそのサブセット)を基盤とする、明確に定義されたスキーマ(列名と型)を持つ論理テーブル(行と列)。たとえば、テーブルは Cloud Storage バケット内の Cloud Storage オブジェクトのサブセットまたは BigQuery データセット内の BigQuery テーブルによってバッキングされる場合があります。

  • テーブルは、Dataproc Metastore、Data Catalog、BigQuery で表示されるファースト クラス コンセプトです(メタデータの登録)。ダウンストリーム システムへの検出または公開が有効になっていない場合、テーブルはダウンストリームに表示されません。たとえば、BigQuery へのパブリッシュが有効になっていない場合、Cloud Storage のユーザーデータから検出されたテーブルは BigQuery に表示されません。
  • 検出システムによって検出されました。ユーザーが作成することはできません。
  • テーブル名は、クエリが簡単に実行できるように、短く意味のあるものに生成されます。名前には [Prefix_]table root path[_Sequence number] の 3 つの部分が含まれます。

ゾーン

レイク内に作成された 1 つ以上のデータリソースの論理コンテナ。データゾーンは、組織内のビジネス ユニット(営業部門と運用部門など)をモデル化するために使用できます。データゾーンは、データ ジャーニーや消費の準備もモデル化します。

未加工ゾーン

消費ワークロードと分析ワークロードに一般的に適していると考えられる前に、さらに処理が必要なデータを含むデータゾーン。

キュレートされたゾーン

より広範な消費ワークロードと分析ワークロードに適していると考えられるデータを含むデータゾーン。Cloud Storage に保存されているキュレートされた構造化データは、特定のファイル形式(Parquet、Avro、ORC)に準拠し、Hive 互換のディレクトリ レイアウトで編成する必要があります。

次のステップ