Dataplex 用語集

Dataplex は、データとサービスの一元管理により、分析のエンドツーエンドのプロセスを統合します。この用語集では、管理システム内で使用される用語を定義します。

用語集リスト

操作

ユーザーが対処できる問題。次に例を示します。

  • ユーザーが指定したセキュリティ グループが存在しないため、セキュリティ ポリシーの伝播に失敗した。
  • Dataplex がマネージド リソースにアクセスできない。
  • 検出ジョブがさまざまな理由で失敗した(ユーザーが修正できます)。無効なデータ形式、パーティション間での互換性のないスキーマ、パーティション命名の不一致など、ユーザーデータの問題が原因です。

アクションは Dataplex によって自動的に生成されます。一部のアクションは、根本的な問題がユーザーによって解決されたことが検出された場合、Dataplex によって自動的にクリアされます。その他のアクションは、ユーザーが明示的に解決済みとしてマークする必要があります。

たとえば、検出アクションが行われた後、ユーザーは Dataplex API を呼び出してアクションに解決済みのマークを付ける必要があります。これにより、検出システムが一時停止を解除し、即時検出実行をスケジュールできます。

アセット

アセットは、Dataplex の単一のマネージド リソース(バケット/データセット)を表します。また、マネージド リソースとそれを操作するサブシステム(検出、ポリシー管理など)のさまざまな構成のプレースホルダでもあります。

BigQuery

BigQuery は、Google Cloud のペタバイト規模の費用対効果に優れたフルマネージド型の分析データ ウェアハウスです。膨大な量のデータに対してほぼリアルタイムで分析を行うことができます。

BigQuery には、設定や管理を必要とするインフラストラクチャが存在しないため、標準 SQL を使用し、オンデマンドと定額料金のオプション全般にわたるフレキシブルな料金モデルのメリットを活用することで有意な分析情報を見つけることに集中できます。詳細

データ

マネージド リソース内のユーザーデータ。たとえば、バケット内の Cloud Storage オブジェクトや、データセット内の BigQuery テーブル行などです。Cloud Storage の場合、オブジェクトはユーザーデータの不変単位です。BigQuery データセットの場合、子テーブル内の行はユーザーデータとみなされます。

Data Catalog

Data Catalog は、フルマネージドでスケーラブルなメタデータ管理サービスです。このサービスを利用すれば、Google Cloud 内のすべてのデータをすばやく検出、管理、把握できます。詳細

Dataplex サービス アカウント

サービス エージェントを表します。Dataplex の代わりにさまざまなアクションを実行するサービス アカウントのタイプです。たとえば、検出システムとポリシー管理システムはサービス エージェントに依存します。

サービス エージェントがジョブを実行するには、ユーザー管理のリソースやプロジェクトに対するさまざまな IAM 権限が必要です。一部は、プロジェクトで Dataplex を有効にするときに自動的に付与されます。それ以外の権限(別のプロジェクトのバケットを接続する場合など)は、ユーザーが手動で付与する必要があります。

Dataproc Metastore

Dataproc Metastore は、フルマネージドで、高可用性のある、自動スケーリング機能、自動修復機能を備えた OSS ネイティブのメタストア サービスであり、技術的なメタデータ管理を大幅に簡素化します。Dataproc Metastore サービスは Apache Hive メタストアに基づいており、エンタープライズ データレイクに向けた不可欠なコンポーネントとして機能します。詳細

Discovery

ユーザーデータのクロールとメタデータの抽出を担当するサブシステム。

エントリ グループ

エントリ グループにはエントリが含まれます。エントリ グループとは、論理的に関連するエントリのセットで、そのエントリ グループ内のエントリを作成、編集、表示できるユーザーを指定する Identity and Access Management ポリシーも含まれています。

ファイルセット

ファイルセットは、ユーザーが作成したエントリ グループ内のエントリです。1 つ以上の一連の Cloud Storage ファイルを指定する 1 つ以上のファイル パターンによって定義されます。ファイルセット エントリは、Cloud Storage ファイルの整理と検出、メタデータの追加に使用できます。

レイク

レイクは、多くのクラウド プロジェクトに分散され、Cloud Storage や BigQuery などのさまざまなストレージ サービスに保存されている組織全体の企業データを管理するための一元化されたリポジトリです。レイクに接続されたリソースは、マネージド リソースと呼ばれます。これらのマネージド リソース内のデータは、構造化することも、非構造化にすることもできます。

レイクは、データ管理者に大規模なデータの整理、保護、管理を行うためのツールを提供し、データ サイエンティストとデータ エンジニアに、データと関連メタデータを簡単に検索、検出、分析、変換するための統合されたエクスペリエンスを提供します。

Logs

Dataplex によって提供される Stackdriver のログ。これにより、ユーザーはレイクの仕組みを把握し、デバッグを実行したり、アラートを設定したりできます。たとえば、次のようなログです。

  • 注意が必要な操作を表示する
  • メタデータの変更を表示する
  • ジョブ実行の概要を表示する
  • 検出ジョブのアクション(ファイルの読み取り、書き込みなど)を表示する

メタデータ

検出システムによってユーザーデータから抽出した情報。たとえば、Cloud Storage バケット名、BigQuery データセット プロパティ、BigQuery 子テーブルのスキーマなど。

メタデータには次の 2 種類があります。

  • スキーマなどの技術的なメタデータ
  • データの統計情報(Cloud Storage のオブジェクトの総数とサイズ)などの運用メタデータ

指標

指標は、Dataplex によって公開 API として公開される Stackdriver の指標を表します。これにより、ユーザーは Stackdriver アラートを設定したり、グラフを使用して可視化したりできます。特定の Dataplex 指標の詳細については、Dataplex Cloud Monitoring をご覧ください。

設定の反映期間(プロパゲーション)

特定のリソース構成を変更すると、バックグラウンドの非同期プロセスが開始され、マネージド リソースの状態とユーザーが指定した状態が調整されます。たとえば、レイクで指定したセキュリティ構成を、そのレイクで潜在的に数千のマネージド リソース(バケット/データセット)の IAM ポリシーに伝播する必要があります。これは、API の呼び出し時にすぐには行われません。このプロセスを伝播と呼びます。

伝播のステータスは、関連するステータス フィールドに反映され、エラーはアクションによって表示されます。

リソース

Dataplex リソース

Dataplex サービスによって定義される Google Cloud リソース(レイク、データゾーン、アセットなど)。

子リソース

マネージド リソースの子。たとえば、Cloud Storage オブジェクト、BigQuery テーブル、ルーティン、モデルなど。子リソース ポリシーの管理は Dataplex を介して直接行われるわけではありませんが、その有効なポリシーは親から継承される内容の影響を受けます。

マネージド リソース

Dataplex で管理および検出できる Google Cloud リソース。 現在は、Cloud Storage バケットと BigQuery データセットです。マネージド リソースは、レイクとは異なるプロジェクトに属することができますが、同じ組織に属している必要があります。

Spec

ユーザー指定の仕様。次に例を示します。

  • セキュリティ仕様では、レイク/ゾーン/アセットのセキュリティ構成を指定します。
  • アセットのリソース仕様では、マネージド リソース(バケット/データセット)へのポインタを指定します。
  • 検出仕様は、アセットの検出構成を指定します。

ステータス

ユーザーが指定した仕様のステータスを表します。次に例を示します。

  • セキュリティ ステータスは、セキュリティ ポリシー(セキュリティ仕様など)が基盤となるバケット/データセットに伝播されるステータスを表します。
  • リソース ステータスは、リソース仕様で指定されたマネージド リソースのステータス(OK / 見つからない / 権限が拒否されるなど)を表します。
  • 検出ステータスは、検出ジョブのステータスを表します。これは検出の仕様によって決まります。

Table

マネージド リソース内のデータ(またはそのサブセット)を基盤とする明確に定義されたスキーマ(列名と型)を持つ論理テーブル(行と列)。たとえば、テーブルは Cloud Storage バケット内の Cloud Storage オブジェクトのサブセット、または BigQuery データセット内の BigQuery テーブルでサポートされます。

  • テーブルは、Dataproc Metastore、Data Catalog、BigQuery で表示されるファースト クラス コンセプトです(メタデータの登録)。検出またはダウンストリーム システムへの公開が有効になっていない場合、テーブルはダウンストリームに表示されません。たとえば、BigQuery への公開が有効になっていない場合、Cloud Storage 内のユーザーデータから検出されたテーブルは BigQuery に表示されません。
  • 検出システムによって検出されました。ユーザーが作成することはできません。
  • テーブル名は短く意味のあるものにして、クエリしやすくします。名前には 3 つの部分 [Prefix_]table root path[_Sequence number] が含まれます。

ゾーン

レイク内で作成された 1 つ以上のデータリソースの論理コンテナ。データゾーンは、組織内のビジネス ユニット(営業と運用など)をモデル化するために使用できます。データゾーンは、データ ジャーニーや消費の準備もモデル化します。

未加工ゾーン

一般に消費と分析ワークロードの準備ができる前に、さらに処理が必要なデータを含むデータゾーン。

キュレートされたゾーン

より広範な消費ワークロードと分析ワークロードに適していると考えられるデータを含むデータゾーン。Cloud Storage に保存されているキュレートされた構造化データは、特定のファイル形式(Parquet、Avro、ORC)に準拠し、Hive 互換のディレクトリ レイアウトで編成する必要があります。

次のステップ