Dataplex 用語集

Dataplex は、データとサービスを一元管理して、エンドツーエンドの分析を一元管理します。この用語集では、管理システム内で使用する用語の定義を説明します。

用語集リスト

操作

ユーザーが対処できる問題。次に例を示します。

  • ユーザーが提供するセキュリティ グループが存在しないため、セキュリティ ポリシーの伝播に失敗しました。
  • マネージド リソースに Dataplex からアクセスできません。
  • 検出ジョブがさまざまな理由で失敗しました(ユーザーが修復できます)。これは、無効なデータ形式、パーティション間のスキーマの互換性、パーティションの命名の不整合など、ユーザーデータの問題が原因である可能性があります。

アクションは、Dataplex によって自動的に生成されます。一部の問題は、根本的な問題がユーザーによって解決されたことを検出したときに Dataplex によって自動的にクリアされます。その他のアクションは、ユーザーが明示的に解決済みとしてマークする必要があります。

たとえば、ユーザーによって検出アクションが行われた後、検出システムが一時停止を解除して即時検出実行をスケジュールできるように、Dataplex API を呼び出してアクションに解決済みのマークを付ける必要があります。

アセット

アセットは、Dataplex 内の単一のマネージド リソース(バケット/データセット)を表します。また、マネージド リソースとサブシステム(検出、ポリシー管理など)に関するさまざまな構成のプレースホルダでもあります。

BigQuery

BigQuery は、Google Cloud のペタバイト規模の費用対効果に優れたフルマネージド型の分析データ ウェアハウスです。膨大な量のデータに対してほぼリアルタイムで分析を行うことができます。

BigQuery には、設定や管理を必要とするインフラストラクチャが存在しないため、標準 SQL を使用し、オンデマンドと定額料金のオプション全般にわたるフレキシブルな料金モデルのメリットを活用することで有意な分析情報を見つけることに集中できます。詳細

データ

マネージド リソース内のユーザーデータ。たとえば、バケット内の Cloud Storage オブジェクトやデータセット内の BigQuery テーブル行などです。Cloud Storage の場合、オブジェクトは不変のユーザーデータ単位です。BigQuery データセットの場合、子テーブル内の行はユーザーデータとみなされます。

Data Catalog

Data Catalog は、フルマネージドでスケーラブルなメタデータ管理サービスです。このサービスを利用すれば、Google Cloud 内のすべてのデータをすばやく検出、管理、把握できます。詳細

Dataplex サービス アカウント

Dataplex の代わりにさまざまなアクションを実行する内部管理の Google Cloud サービス アカウントを表します。たとえば、サービス アカウントの認証情報は、検出システム、ポリシー管理システムなどで使用されます。

サービス アカウントによるジョブの実行には、ユーザー管理のリソースとプロジェクトに対するさまざまな IAM 権限が必要です。一部の権限は、プロジェクトで Dataplex を有効にするときに自動的に付与されます。その他のプロジェクト(別のプロジェクトのバケットを接続する場合など)は、ユーザーが手動で付与する必要があります。

Dataproc Metastore

Dataproc Metastore は、フルマネージドで、高可用性のある、自動スケーリング機能、自動修復機能を備えた OSS ネイティブのメタストア サービスであり、技術的なメタデータ管理を大幅に簡素化します。Dataproc Metastore サービスは Apache Hive メタストアに基づいており、エンタープライズ データレイクに向けた不可欠なコンポーネントとして機能します。詳細

Discovery

ユーザーデータのクロールとメタデータの抽出を担当するサブシステム。

エントリ グループ

エントリ グループにはエントリが含まれます。エントリ グループとは、論理的に関連するエントリのセットで、そのエントリ グループ内のエントリを作成、編集、表示できるユーザーを指定する Identity and Access Management ポリシーも含まれています。

ファイルセット

ファイルセットは、ユーザーが作成したエントリ グループ内のエントリです。1 つ以上の一連の Cloud Storage ファイルを指定する 1 つ以上のファイル パターンによって定義されます。ファイルセット エントリは、Cloud Storage ファイルの整理と検出、メタデータの追加に使用できます。

レイク

レイクは、多くのクラウド プロジェクトに分散されている組織全体でエンタープライズ データを管理するための一元化されたリポジトリで、Cloud Storage や BigQuery などのさまざまなストレージ サービスに保存されます。レイクに接続されたリソースは、マネージド リソースと呼ばれます。これらのマネージド リソース内のデータは、構造化と非構造化のどちらでもかまいません。

レイクは、データ管理者に大規模なデータの整理、保護、管理を行うためのツールを提供し、データ サイエンティストとデータ エンジニアに、データと関連メタデータを簡単に検索、検出、分析、変換するための統合されたエクスペリエンスを提供します。

Logs

Dataplex によって提供される Stackdriver のログ。これにより、ユーザーはレイクの仕組みを把握し、デバッグを実行したり、アラートを設定したりできます。たとえば、次のようなログです。

  • 対応が必要なアクションを明確にする
  • メタデータの変更を表示する
  • ジョブ実行の概要を表示する
  • 検出ジョブのアクション(ファイルの読み取り、書き込みなど)を表示する

メタデータ

検出システムによってユーザーデータから抽出された情報。たとえば、Cloud Storage バケット名、BigQuery データセット プロパティ、子 BigQuery テーブルのスキーマなどです。

メタデータには次の 2 種類があります。

  • スキーマなどのテクニカル メタデータ
  • データ統計などのオペレーション メタデータ(Cloud Storage のオブジェクトの合計数とサイズ)

指標

指標は、Dataplex によって公開 API として公開される Stackdriver 指標を表します。これらの指標は、ユーザーが Stackdriver アラートを設定したり、グラフを介して可視化したりするために使用できます。特定の Dataplex の指標の詳細については、Dataplex の Cloud Monitoring をご覧ください。

設定の反映期間(プロパゲーション)

特定のリソース構成を変更すると、バックグラウンドの非同期プロセスが開始され、マネージド リソースの状態とユーザーが指定した内容を調整できます。たとえば、レイクで指定されたセキュリティ構成を、そのレイク内の数千ものマネージド リソース(バケット/データセット)の IAM ポリシーに伝播する必要があります。これは、API が呼び出されてもすぐには実行されません。このプロセスは「伝播」と呼ばれます。

伝播ステータスは関連するステータス フィールドに反映され、エラーはアクションによって表示されます。

リソース

Dataplex リソース

Dataplex サービスで定義された Google Cloud リソース(レイク、データゾーン、アセットなど)。

子リソース

マネージド リソースの子。たとえば、Cloud Storage オブジェクトや BigQuery のテーブル/ルーティン/モデルなどです。子リソースポリシーの管理は Dataplex を介して直接行われることはありません。ただし、その有効なポリシーは、親から継承されるポリシーの影響を受けます。

マネージド リソース

Dataplex を介して管理、検出できる Google Cloud リソース。現在、Cloud Storage バケットと BigQuery データセット。マネージド リソースはレイクとは異なるプロジェクトに属することができますが、同じ組織に属している必要があります。

Spec

ユーザー指定の仕様。次に例を示します。

  • セキュリティ仕様は、レイク、ゾーン、アセットのセキュリティ構成を指定します。
  • アセットのリソース仕様は、マネージド リソース(バケット/データセット)へのポインタを指定します。
  • 検出仕様では、アセットの検出構成を指定します。

ステータス

ユーザー指定の仕様のステータスを表します。例:

  • セキュリティ ステータスは、基盤となるバケット/データセットへのセキュリティ ポリシーの伝達(セキュリティ仕様など)のステータスを表します。
  • リソース ステータスは、リソース仕様で指定されたマネージド リソースのステータス(ok / not found / permission denied など)を表します。
  • ディスカバリー ステータスは、検出ジョブのステータスに基づいて、検出ジョブのステータスを表します。

Table

マネージド リソースのデータ(またはその一部)に基づく、明確に定義されたスキーマ(列名と型)を持つ論理テーブル(行と列)。たとえば、テーブルでサポートされるのは、Cloud Storage バケット内の Cloud Storage オブジェクトのサブセットまたは BigQuery データセットの BigQuery テーブルです。

  • 最高クラスのコンセプトであるテーブルは、Dataproc Metastore、Data Catalog、BigQuery(メタデータ登録)に表示されます。ダウンストリーム システムへの検出またはパブリッシュが有効になっていない場合、テーブルはダウンストリームに表示されません。たとえば、BigQuery への公開が有効になっていない場合、Cloud Storage 内のユーザーデータから検出されたテーブルは BigQuery に表示されません。
  • 検出システムによって検出されます。ユーザーが作成することはできません。
  • テーブル名は短くわかりやすくするために、簡単にクエリできるように生成されます。名前には [Prefix_]table root path[_Sequence number] の 3 つの部分があります。

ゾーン

レイク内に 1 つ以上のデータリソースの論理コンテナ。データゾーンは、組織内のビジネス ユニット(売上、運用など)をモデル化するために使用できます。データゾーンでは、データ ジャーニーの準備や利用の準備状況もモデル化されます。

未加工ゾーン

データ ゾーンでは、一般的に使用と分析のワークロードの準備が整う前にさらに処理が必要なデータを含む。

キュレートされたゾーン

さまざまな消費と分析ワークロードに対応する準備ができていると考えられるデータを含むデータゾーン。Cloud Storage に保存されるキュレートされた構造化データは、特定のファイル形式(Parquet、Avro、ORC)に準拠し、Hive 互換のディレクトリ レイアウトで編成される必要があります。

次のステップ