データプロファイリングについて

Dataplex Universal Catalog のデータプロファイリングによって、BigQuery テーブル内の列の一般的な統計的特性を特定できます。この情報は、データをより効果的に理解、分析するために活用できます。

一般的なデータ値、データ分布、null 数などの情報により分析のスピードを向上できます。データプロファイリングをデータ分類と組み合わせると、データクラスや機密情報を検出できるようになり、これによってアクセス制御ポリシーを有効化できます。

また、Dataplex Universal Catalog はこの情報を使用して、データ品質チェックのルールを推奨します。

概念モデル

Dataplex Universal Catalog を使用すると、データプロファイルスキャンを作成することで、データのプロファイルをより深く理解できるようになります。

次の図は、Dataplex Universal Catalog がデータをスキャンして統計特性を報告する方法を示しています。

データプロファイルスキャンは 1 つの BigQuery テーブルに関連付けられており、テーブルをスキャンしてデータプロファイリングの結果を生成します。データプロファイルスキャンでは、いくつかの構成オプションがサポートされています。

構成オプション

このセクションでは、データプロファイルスキャンの実行に使用できる構成オプションについて説明します。

スケジュールのオプション

定義した頻度でデータプロファイルスキャンのスケジュールを設定することも、スキャンをオンデマンドで実行することもできます。

範囲

スキャンするデータの範囲を指定できます。

テーブル全体: データプロファイルスキャンでテーブル全体がスキャンされます。サンプリング、行フィルタ、列フィルタは、プロファイリングの統計情報を計算する前にテーブル全体に適用されます。
増分: 指定した増分データがデータプロファイルスキャンでスキャンされます。増分として使用する Date 列または Timestamp 列をテーブルで指定します。通常、これはテーブルが分割される列です。プロファイリングの統計情報を計算する前に、サンプリング、行フィルタ、列フィルタが増分データに適用されます。

データをフィルタする

行フィルタと列フィルタを使用して、スキャン対象のデータをプロファイリング用にフィルタできます。フィルタを使用することで、実行時間とコストを削減し、機密データや不要なデータも除外できます。

行フィルタ: 行フィルタを使用すると、特定の期間内や特定のセグメント（リージョンなど）のデータにフォーカスできます。たとえば、特定の日付より前のタイムスタンプを持つデータを除外できます。
列フィルタ: 列フィルタを使用すると、テーブルに特定の列を追加または除外して、データプロファイルスキャンを実行できます。

サンプルデータ

データプロファイルスキャンを実行するために、データからサンプリングするレコードの割合を指定できます。小さなサンプルデータに対してデータプロファイルスキャンを作成すると、データセット全体のクエリの実行時間とコストを削減できます。

複数のデータプロファイルスキャン

Google Cloud コンソールを使用して、一度に複数のデータプロファイルスキャンを作成できます。1 つのデータセットから最大 100 個のテーブルを選択し、各データセットのデータプロファイルスキャンを作成できます。詳細については、複数のデータプロファイルスキャンを作成するをご覧ください。

スキャン結果を BigQuery テーブルにエクスポートする

データプロファイルスキャン結果を BigQuery テーブルにエクスポートして、さらに分析を行うことができます。レポートをカスタマイズするには、BigQuery テーブルデータを Looker ダッシュボードに接続します。複数のスキャンで同じ結果テーブルを使用することで、集計レポートを作成できます。

データプロファイリングの結果

データプロファイリングの結果には、次の値が含まれます。

列の型	データプロファイリングの結果
数値の列	null 値の割合。一意の（個別の）近似値の割合。列内の一般的な値の上位 10 個。列内の一意の値の数が 10 個未満の場合（null 値は含まれません）は、10 個未満になる場合があります。これらの上位の一般的な値ごとに、現在のスキャンでスキャンされたデータ内での出現率が表示されます。平均値、標準偏差、最小値、近似下位四分位値、近似中央値、近似上位四分位値、最大値。
文字列の列	null 値の割合。一意の（個別の）近似値の割合。列内の一般的な値の上位 10 個。列内の一意の値の数が 10 個未満の場合は、10 個未満になることがあります。文字列の平均長、最小長、最大長。
ネストされていないその他の列（日付、時刻、タイムスタンプ、バイナリなど）	null 値の割合。一意の（個別の）近似値の割合。列内の一般的な値の上位 10 個。列内の一意の値の数が 10 個未満の場合は、10 個未満になることがあります。
その他のすべてのネストされた列、または複雑なデータ型の列（Record、Array、JSON など）、または繰り返しモードの列。	null 値の割合。

結果には、すべてのジョブでスキャンされたレコードの数が含まれます。

レポートとモニタリング

データプロファイリングの結果は、次のレポートとメソッドを使用してモニタリングおよび分析できます。

BigQuery ページと Dataplex Universal Catalog ページのソーステーブルで公開されたレポート

Google Cloud コンソールの BigQuery ページと Dataplex Universal Catalog ページで結果を公開するようにデータプロファイルスキャンを構成した場合は、任意のプロジェクトから、これらのページのソーステーブルの [データプロファイル] タブで最新のデータプロファイルスキャンの結果を表示できます。
過去のジョブ別レポート

Dataplex Universal Catalog と BigQuery の [データのプロファイリングと品質] > [データプロファイルスキャン] ページで、最新のジョブと過去のジョブの詳細レポートを表示できます。これには、列レベルのプロファイル情報と使用された構成が含まれます。
[分析] タブ

Dataplex Universal Catalog と BigQuery の [データのプロファイリングと品質] > [データプロファイルスキャン] ページで [分析] タブを使用すると、複数のプロファイルジョブにける列の特定の統計情報に関する傾向を確認できます。たとえば、増分スキャンがある場合は、値の平均値の経時的な傾向を確認できます。
独自のダッシュボードまたは分析を構築する

BigQuery テーブルに結果をエクスポートするようにデータプロファイルスキャンを構成した場合は、Looker Studio などのツールを使用して独自のダッシュボードを構築できます。

制限事項

データプロファイリングは、BIGNUMERIC を除くすべての列型を持つ BigQuery テーブルでサポートされています。BIGNUMERIC 列を含むテーブルに対して作成されたスキャンは、検証エラーになり、正常に作成されません。

料金

料金の詳細については、Dataplex Universal Catalog の料金をご覧ください。

次のステップ

データプロファイリングを使用する方法を学習する。
自動データ品質について学習する。
自動データ品質を使用する方法を学習する。
データ分析情報を生成してデータを探索する方法について学習する。