データプロファイリングについて

Dataplex Universal Catalog のデータプロファイリングによって、BigQuery テーブル内の列の一般的な統計的特性を特定できます。この情報は、データをより効果的に理解、分析するために活用できます。

一般的なデータ値、データ分布、null 数などの情報により分析のスピードを向上できます。データプロファイリングをデータ分類と組み合わせると、データクラスや機密情報を検出できるようになり、これによってアクセス制御ポリシーを有効化できます。

また、Dataplex Universal Catalog はこの情報を使用して、データ品質チェックのルールを推奨します。

概念モデル

Dataplex Universal Catalog を使用すると、データプロファイリングスキャンを作成することで、データのプロファイルをより深く理解できるようになります。

次の図は、Dataplex Universal Catalog がデータをスキャンして統計特性を報告する方法を示しています。

データプロファイリングスキャンは 1 つの BigQuery テーブルに関連付けられており、テーブルをスキャンしてデータプロファイリングの結果を生成します。データプロファイリングスキャンでは、いくつかの構成オプションがサポートされています。

構成オプション

このセクションでは、データプロファイリングスキャンの実行に使用できる構成オプションについて説明します。

スケジュールのオプション

API または Google Cloud コンソールで、定義した頻度またはオンデマンドでのデータプロファイリングスキャンのスケジュールを設定できます。

範囲

データプロファイリングスキャンの仕様の一部として、ジョブの範囲を次のいずれかのオプションとして指定できます。

テーブル全体: データプロファイリングスキャンでテーブル全体がスキャンされます。サンプリング、行フィルタ、列フィルタは、プロファイリングの統計情報を計算する前にテーブル全体に適用されます。
増分: 指定した増分データがデータプロファイルスキャンでスキャンされます。増分として使用する Date 列または Timestamp 列をテーブルで指定します。通常、これはテーブルが分割される列です。プロファイリングの統計情報を計算する前に、サンプリング、行フィルタ、列フィルタが増分データに適用されます。

データをフィルタする

行フィルタと列フィルタを使用して、スキャン対象のデータをプロファイリング用にフィルタできます。フィルタを使用することで、実行時間とコストを削減し、機密データや不要なデータも除外できます。

行フィルタ: 行フィルタを使用すると、特定の期間内や特定のセグメント（リージョンなど）のデータにフォーカスできます。たとえば、特定の日付より前のタイムスタンプを持つデータを除外できます。
列フィルタ: 列フィルタを使用すると、テーブルに特定の列を追加または除外して、データプロファイリングスキャンを実行できます。

サンプルデータ

Dataplex Universal Catalog では、データプロファイリングスキャンを実行するために、データからサンプリングするレコードの割合を指定できます。小さなサンプルデータに対してデータプロファイリングスキャンを作成すると、データセット全体のクエリの実行時間とコストを削減できます。

複数のデータプロファイリングスキャン

Dataplex Universal Catalog では、 Google Cloud コンソールを使用して、一度に複数のデータプロファイリングスキャンを作成できます。1 つのデータセットから最大 100 個のテーブルを選択し、各データセットのデータプロファイリングスキャンを作成できます。詳細。

スキャン結果を BigQuery テーブルにエクスポートする

データプロファイリングスキャン結果を BigQuery テーブルにエクスポートして、さらに分析を行うことができます。レポートをカスタマイズするには、BigQuery テーブルデータを Looker ダッシュボードに接続します。複数のスキャンで同じ結果テーブルを使用することで、集計レポートを作成できます。

データプロファイリングの結果

データプロファイリングの結果には、次の値が含まれます。

列の型	データプロファイリングの結果
数値の列	null 値の割合。一意の（個別の）近似値の割合。列内の一般的な値の上位 10 個。列内の一意の値の数が 10 個未満の場合（null 値は含まれません）は、10 個未満になる場合があります。これらの上位の一般的な値ごとに、現在のスキャンでスキャンされたデータ内での出現率が表示されます。平均値、標準偏差、最小値、近似下位四分位値、近似中央値、近似上位四分位値、最大値。
文字列の列	null 値の割合。一意の（個別の）近似値の割合。列内の一般的な値の上位 10 個。列内の一意の値の数が 10 個未満の場合は、10 個未満になることがあります。文字列の平均長、最小長、最大長。
ネストされていないその他の列（日付、時刻、タイムスタンプ、バイナリなど）	null 値の割合。一意の（個別の）近似値の割合。列内の一般的な値の上位 10 個。列内の一意の値の数が 10 個未満の場合は、10 個未満になることがあります。
その他のすべてのネストされた列、または複雑なデータ型の列（Record、Array、JSON など）、または繰り返しモードの列。	null 値の割合。

結果には、すべての実行でスキャンされたレコードの数が含まれます。

レポートとモニタリング

データプロファイリングの結果は、次のレポートとメソッドを使用してモニタリングおよび分析できます。

BigQuery ページと Dataplex Universal Catalog ページのソーステーブルで公開されたレポート

Google Cloud コンソールの BigQuery ページと Dataplex Universal Catalog ページで結果を公開するようにデータプロファイリングスキャンを構成した場合は、任意のプロジェクトから、[データプロファイル] タブ内のこれらのページで最新のデータプロファイリングスキャンの結果を表示できます。
Dataplex Universal Catalog の過去のジョブ別レポート

Dataplex Universal Catalog の [プロファイル] ページで、最新のジョブと過去のジョブの詳細レポートを表示できます。これには、列レベルのプロファイル情報と使用された構成が含まれます。
[分析] タブ

Dataplex Universal Catalog の [プロファイル] ページにある [分析] タブを使用すると、複数のプロファイルジョブにおける列の特定の統計情報に関する傾向を確認できます。たとえば、増分スキャンがある場合は、値の平均値の経時的な傾向を確認できます。
独自のダッシュボードまたは分析を構築する

BigQuery テーブルに結果をエクスポートまたは保存するようにデータプロファイリングスキャンを構成した場合は、Looker Studio などのツールを使用して独自のダッシュボードを構築できます。

制限事項

データプロファイリングは、BIGNUMERIC を除くすべての列型を持つ BigQuery テーブルでサポートされています。BIGNUMERIC 列を含むテーブルに対して作成されたスキャンは、検証エラーになり、正常に作成されません。

料金

Dataplex Universal Catalog は、プレミアム処理 SKU を使用してデータプロファイリングの料金を課金します。詳細については、料金をご覧ください。
データプロファイリングに対する Dataplex Universal Catalog プレミアム処理では、1 分間分の最低使用料が課金され、その後は秒単位で料金が発生します。
失敗したプロファイリングのスキャンに対しては課金されません。
料金は、行数、列数、スキャンしたデータの量、テーブルのパーティショニングとクラスタリングの設定、スキャンの頻度によって異なります。
データプロファイリングスキャンの費用を削減する方法はいくつかあります。
- サンプリング
- 増分スキャン
- 列のフィルタリング
- 行のフィルタリング
Dataplex Universal Catalog プレミアム処理 SKU で、データプロファイリングの課金を他の課金と分離するには、Cloud Billing レポートで、ラベル goog-dataplex-workload-type を DATA_PROFILE 値に設定して使用します。
集計された課金をフィルタリングするには、次のラベルを使用します。
- goog-dataplex-datascan-data-source-dataplex-entity
- goog-dataplex-datascan-data-source-dataplex-lake
- goog-dataplex-datascan-data-source-dataplex-zone
- goog-dataplex-datascan-data-source-project
- goog-dataplex-datascan-data-source-region
- goog-dataplex-datascan-id
- goog-dataplex-datascan-job-id

次のステップ

データプロファイリングを使用する方法を学習する。
自動データ品質について学習する。
自動データ品質を使用する方法を学習する。
データ分析情報を生成してデータを探索する方法について学習する。