データ品質タスクの概要

Dataplex のデータ品質タスクによって、BigQuery と Cloud Storage のテーブル間でデータ品質チェックを定義して実行できます。また、Dataplex のデータ品質タスクでは、BigQuery 環境で通常のデータ管理を適用することもできます。

Dataplex のデータ品質タスクを作成するタイミング

Dataplex のデータ品質タスクは次のことに役立ちます。

  • データ本番環境パイプラインの一部としてデータを検証します。
  • データセットの品質を定期的にモニタリングする。
  • 規制要件に関するデータ品質レポートを作成する。

利点

  • カスタマイズ可能な仕様。柔軟性の高い YAML 構文を使用して、データ品質ルールを宣言できます。
  • サーバーレス実装。Dataplex ではインフラストラクチャの設定は何も必要ありません。
  • ゼロコピーと自動 push。YAML チェックは SQL に変換されて BigQuery に push されるため、データコピーは行われません。
  • スケジュール可能なデータ品質チェック。Dataplex でサーバーレス スケジューラを使用してデータ品質チェックのスケジュールを設定できます。また、Cloud Composer などの外部スケジューラを通じて Dataplex API を使用してパイプラインに統合することもできます。
  • マネージドな経験。Dataplex は、オープンソースのデータ品質エンジンである CloudDQ を使用してデータ品質チェックを実行します。しかし、Dataplex はデータ品質チェックを実行するためのシームレスなマネージド経験を提供します。

仕組み

次の図は、Dataplex のデータ品質タスクの仕組みを示しています。

画像

  • ユーザーからの入力
    • YAML 仕様: 仕様の構文に基づいてデータ品質ルールを定義する、1 つ以上の YAML ファイルのセット。YAML ファイルはプロジェクトの Cloud Storage バケットに保存します。ユーザーは複数のルールを同時に実行でき、さまざまなデータセットや Google Cloud プロジェクトにまたがるテーブルなど、さまざまな BigQuery テーブルにそれらのルールを適用できます。この仕様は、新しいデータを検証するだけの増分実行をサポートしています。YAML 仕様を作成するには、仕様ファイルを作成するをご覧ください。
    • BigQuery 結果テーブル: データ品質検証の結果が保存される、ユーザー指定のテーブル。このテーブルが存在する Google Cloud プロジェクトは、Dataplex データ品質タスクが使用されるプロジェクトとは異なる場合もあります。
  • 検証するテーブル
    • YAML 仕様には、ルールに対して検証するテーブルを指定する必要があります。これはルール バインディングとも呼ばれます。テーブルは、BigQuery ネイティブ テーブルまたは Cloud Storage 内の BigQuery 外部テーブルです。YAML 仕様では、Dataplex ゾーンの内部または外部のテーブルを指定できます。
    • 単一の実行で検証される BigQuery と Cloud Storage のテーブルは、異なるプロジェクトに属すことができます。
  • Dataplex データ品質タスク: Dataplex データ品質タスクは、事前に構築されて維持されている CloudDQ PySpark バイナリで構成され、YAML 仕様と BigQuery 結果テーブルを入力として使用します。他の Dataplex タスクと同様に、Dataplex データ品質タスクはサーバーレス Spark 環境で実行され、YAML 仕様を BigQuery クエリに変換してから、これらのクエリを、仕様ファイルで定義されたテーブルに対して実行します。

費用

Dataplex のデータ品質タスクを実行すると、BigQuery と Dataproc Serverless(バッチ)の使用量に応じて課金されます。

  • Dataplex データ品質タスクは、仕様ファイルを BigQuery クエリに変換し、ユーザー プロジェクトで実行します。BigQuery の料金をご覧ください。

  • Dataplex は、Spark を使用して、事前に構築された Google が管理するオープンソース CloudDQ ドライバ プログラムを実行し、ユーザーの仕様を BigQuery クエリに変換します。Dataproc Serverless の料金をご覧ください。

Dataplex を使用してデータを整理したり、Dataplex でサーバーレス スケジューラを使用してデータ品質の確認をスケジュールしたりするのに料金はかかりません。Dataplex の料金をご覧ください。

次のステップ