Dataplex Universal Catalog のデータ プロファイリングによって、BigQuery テーブル内の列の一般的な統計的特性を特定できます。この情報は、データをより効果的に理解、分析するために活用できます。
一般的なデータ値、データ分布、null 数などの情報により分析のスピードを向上できます。データ プロファイリングをデータ分類と組み合わせると、データクラスや機密情報を検出できるようになり、これによってアクセス制御ポリシーを有効化できます。
また、Dataplex Universal Catalog はこの情報を使用して、データ品質チェックのルールを推奨します。
概念モデル
Dataplex Universal Catalog を使用すると、データ プロファイル スキャンを作成することで、データのプロファイルをより深く理解できるようになります。
次の図は、Dataplex Universal Catalog がデータをスキャンして統計特性を報告する方法を示しています。
データ プロファイル スキャンは 1 つの BigQuery テーブルに関連付けられており、テーブルをスキャンしてデータ プロファイリングの結果を生成します。データ プロファイル スキャンでは、いくつかの構成オプションがサポートされています。
構成オプション
このセクションでは、データ プロファイル スキャンの実行に使用できる構成オプションについて説明します。
スケジュールのオプション
定義した頻度でデータ プロファイル スキャンのスケジュールを設定することも、スキャンをオンデマンドで実行することもできます。
範囲
スキャンするデータの範囲を指定できます。
テーブル全体: データ プロファイル スキャンでテーブル全体がスキャンされます。サンプリング、行フィルタ、列フィルタは、プロファイリングの統計情報を計算する前にテーブル全体に適用されます。
増分: 指定した増分データがデータ プロファイル スキャンでスキャンされます。増分として使用する
Date
列またはTimestamp
列をテーブルで指定します。通常、これはテーブルが分割される列です。プロファイリングの統計情報を計算する前に、サンプリング、行フィルタ、列フィルタが増分データに適用されます。
データをフィルタする
行フィルタと列フィルタを使用して、スキャン対象のデータをプロファイリング用にフィルタできます。フィルタを使用することで、実行時間とコストを削減し、機密データや不要なデータも除外できます。
行フィルタ: 行フィルタを使用すると、特定の期間内や特定のセグメント(リージョンなど)のデータにフォーカスできます。たとえば、特定の日付より前のタイムスタンプを持つデータを除外できます。
列フィルタ: 列フィルタを使用すると、テーブルに特定の列を追加または除外して、データ プロファイル スキャンを実行できます。
サンプルデータ
データ プロファイル スキャンを実行するために、データからサンプリングするレコードの割合を指定できます。小さなサンプルデータに対してデータ プロファイル スキャンを作成すると、データセット全体のクエリの実行時間とコストを削減できます。
複数のデータ プロファイル スキャン
Google Cloud コンソールを使用して、一度に複数のデータ プロファイル スキャンを作成できます。1 つのデータセットから最大 100 個のテーブルを選択し、各データセットのデータ プロファイル スキャンを作成できます。詳細については、複数のデータ プロファイル スキャンを作成するをご覧ください。
スキャン結果を BigQuery テーブルにエクスポートする
データ プロファイル スキャン結果を BigQuery テーブルにエクスポートして、さらに分析を行うことができます。レポートをカスタマイズするには、BigQuery テーブルデータを Looker ダッシュボードに接続します。複数のスキャンで同じ結果テーブルを使用することで、集計レポートを作成できます。
データ プロファイリングの結果
データ プロファイリングの結果には、次の値が含まれます。
列の型 | データ プロファイリングの結果 |
---|---|
数値の列 |
|
文字列の列 |
|
ネストされていないその他の列(日付、時刻、タイムスタンプ、バイナリなど) |
|
その他のすべてのネストされた列、または複雑なデータ型の列(Record、Array、JSON など)、または繰り返しモードの列。 |
|
結果には、すべてのジョブでスキャンされたレコードの数が含まれます。
レポートとモニタリング
データ プロファイリングの結果は、次のレポートとメソッドを使用してモニタリングおよび分析できます。
BigQuery ページと Dataplex Universal Catalog ページのソーステーブルで公開されたレポート
Google Cloud コンソールの BigQuery ページと Dataplex Universal Catalog ページで結果を公開するようにデータ プロファイル スキャンを構成した場合は、任意のプロジェクトから、これらのページのソーステーブルの [データ プロファイル] タブで最新のデータ プロファイル スキャンの結果を表示できます。
過去のジョブ別レポート
Dataplex Universal Catalog と BigQuery の [データのプロファイリングと品質] > [データ プロファイル スキャン] ページで、最新のジョブと過去のジョブの詳細レポートを表示できます。これには、列レベルのプロファイル情報と使用された構成が含まれます。
[分析] タブ
Dataplex Universal Catalog と BigQuery の [データのプロファイリングと品質] > [データ プロファイル スキャン] ページで [分析] タブを使用すると、複数のプロファイル ジョブにける列の特定の統計情報に関する傾向を確認できます。たとえば、増分スキャンがある場合は、値の平均値の経時的な傾向を確認できます。
独自のダッシュボードまたは分析を構築する
BigQuery テーブルに結果をエクスポートするようにデータ プロファイル スキャンを構成した場合は、Looker Studio などのツールを使用して独自のダッシュボードを構築できます。
制限事項
- データ プロファイリングは、
BIGNUMERIC
を除くすべての列型を持つ BigQuery テーブルでサポートされています。BIGNUMERIC
列を含むテーブルに対して作成されたスキャンは、検証エラーになり、正常に作成されません。
料金
料金の詳細については、Dataplex Universal Catalog の料金をご覧ください。
次のステップ
- データ プロファイリングを使用する方法を学習する。
- 自動データ品質について学習する。
- 自動データ品質を使用する方法を学習する。
- データ分析情報を生成してデータを探索する方法について学習する。