データ品質タスクの概要

Dataplex のデータ品質タスクによって、BigQuery と Cloud Storage のテーブル間でデータ品質チェックを定義して実行できます。また、Dataplex のデータ品質タスクでは、BigQuery 環境で通常のデータ管理を適用することもできます。

Dataplex データ品質タスクを作成するタイミング

Dataplex のデータ品質タスクは次のことに役立ちます。

  • データ本番環境パイプラインの一部としてデータを検証します。
  • データセットの品質を定期的にモニタリングする。
  • 規制要件に関するデータ品質レポートを作成する。

利点

  • カスタマイズ可能な仕様。柔軟性の高い YAML 構文を使用して、データ品質ルールを宣言できます。
  • サーバーレス実装。Dataplex ではインフラストラクチャの設定は何も必要ありません。
  • ゼロコピーと自動プッシュダウン。YAML チェックは SQL に変換されて BigQuery に push されるため、データコピーは行われません。
  • スケジュール可能なデータ品質の確認。Dataplex でサーバーレス スケジューラを使用してデータ品質チェックのスケジュールを設定できます。また、Cloud Composer などの外部スケジューラを通じて Dataplex API を使用してパイプラインを統合することもできます。
  • 管理機能。Dataplex は、オープンソースのデータ品質エンジンである CloudDQ を使用してデータ品質チェックを実行します。ただし、Dataplex はデータ品質チェックの実行をシームレスに管理できます。

データ品質タスクの仕組み

次の図は、Dataplex のデータ品質タスクの仕組みを示しています。

イメージ

  • ユーザーからの入力
    • YAML 仕様: 仕様の構文に基づいてデータ品質ルールを定義する、1 つ以上の YAML ファイルのセット。YAML ファイルはプロジェクトの Cloud Storage バケットに保存します。ユーザーは複数のルールを同時に実行でき、それらのルールを、さまざまなデータセットや Google Cloud プロジェクトにまたがるテーブルを含めて、さまざまな BigQuery テーブルに適用できます。この仕様では、新しいデータを検証するだけの増分実行をサポートします。YAML 仕様を作成するには、仕様ファイルを作成するをご覧ください。
    • BigQuery 結果テーブル: データ品質検証の結果が保存される、ユーザー指定のテーブル。このテーブルが存在する Google Cloud プロジェクトは、Dataplex データ品質タスクが使用されるプロジェクトとは異なるプロジェクトにすることもできます。
  • 検証するテーブル
    • YAML 仕様では、ルールに対して検証するテーブルを指定する必要があります。これはルール バインディングとも呼ばれます。テーブルは、Cloud Storage 内の BigQuery ネイティブ テーブルまたは BigQuery 外部テーブルにできます。YAML 仕様では、Dataplex ゾーンの内部または外部のテーブルを指定できます。
    • 単一の実行で検証される BigQuery と Cloud Storage のテーブルは、異なるプロジェクトに属すことができます。
  • Dataplex データ品質タスク: Dataplex データ品質タスクは、事前に構築されて維持されている CloudDQ PySpark バイナリで構成され、YAML 仕様と BigQuery 結果テーブルを入力として使用します。他の Dataplex タスクと同様に、Dataplex データ品質タスクはサーバーレス Spark 環境で実行され、YAML 仕様を BigQuery クエリに変換してから、これらのクエリを、仕様ファイルで定義されたテーブルに対して実行します。

料金

Dataplex のデータ品質タスクを実行すると、BigQuery と Dataproc Serverless(バッチ)の使用量に応じて課金されます。

  • Dataplex データ品質タスクは、仕様ファイルを BigQuery クエリに変換し、ユーザー プロジェクトで実行します。BigQuery の料金をご覧ください。

  • Dataplex は、Spark を使用して、事前に構築された Google が管理するオープンソース CloudDQ ドライバ プログラムを実行し、ユーザー仕様を BigQuery クエリに変換します。Dataproc Serverless の料金をご覧ください。

Dataplex を使用してデータを整理したり、Dataplex でサーバーレス スケジューラを使用してデータ品質の確認をスケジュールしたりするのに料金はかかりません。Dataplex の料金をご覧ください。

次のステップ