このページでは、データ プロファイルに収集される全指標の一覧を記載します。
データ プロファイルには、プロジェクト データ プロファイル、テーブル データ プロファイル、列データ プロファイルの 3 種類があります。
プロジェクト データ プロファイル
各プロジェクト データ プロファイルには、次のフィールドがあります。これらのフィールドの値は、プロジェクト内でプロファイリングされたリソースに基づいて集計されます。
Insights
プロジェクト データ プロファイルを使用すると、次の分析情報が得られます。
- データリスク
- 現状態のデータに関連付けられるリスクのレベル。詳細については、機密性とデータリスク レベルをご覧ください。
- 機密性
- このプロジェクトの機密レベルを示すスコア。詳細については、機密性とデータリスク レベルをご覧ください。
メタデータ
プロジェクト データ プロファイルは次のメタデータを提供します。
- プロファイルが最後に生成された日時
- プロファイルが最後に生成された日時。
- プロジェクト ID
- プロファイリングされたプロジェクトの ID。
- リソース名
- データ プロファイルの完全修飾名。
- ステータス
- プロファイリング オペレーションのステータスを示すアイコン。
テーブルデータ プロファイル
各テーブルデータ プロファイルには、次のフィールドがあります。
Insights
テーブルデータ プロファイルでは、次の分析情報が得られます。
- データリスク
- 現状態のデータに関連付けられるリスクのレベル。詳細については、機密性とデータリスク レベルをご覧ください。
- 機密性
- このテーブルの機密レベルを示すスコア。詳細については、機密性とデータリスク レベルをご覧ください。
メタデータ
テーブルデータ プロファイルでは、次のメタデータを使用できます。
- データベース
- プロファイリングされたテーブルを含むデータベース。このフィールドは、Cloud SQL 検出にのみ適用されます。
- データセット ID
- このテーブルを含むデータセットの ID。
- 暗号化
- このテーブルの暗号化が Google によって管理されているか、組織によって管理されているか。
- 有効期限
- 省略可。このテーブルの有効期限。
- エラーが発生した列の数
- このテーブルでエラーのためにスキップされた列の数。
- 検査構成のスナップショット
- プロファイルの生成時に使用した検査テンプレートのスナップショット。詳細については、データ プロファイルのスナップショットをご覧ください。
- インスタンス
- プロファイリングされたテーブルを含むインスタンス。このフィールドは、Cloud SQL 検出にのみ適用されます。
- プロファイルが最後に生成された日時
- プロファイルが最後に生成された日時。
- BigQuery での最新の更新日時
- このテーブルが最後に更新された日時。
- プロジェクト ID
- このテーブルを含むプロジェクトの ID。
- 公開
- このテーブルをすべてのユーザーが使用できるか、特定のユーザーに制限されているか。
- リソースラベル
- プロファイルの生成時にテーブルに含まれていたラベル。
- リソース名
- データ プロファイルの完全修飾名。
- 行数
- プロファイルが生成されたときの、このテーブルの行数。
- スキャンされた列の数
- このテーブルでプロファイリングされた列の数。
- サービス アカウント
- このテーブルにアクセスするための IAM 権限を持つサービス アカウントの数。
- ステータス
- プロファイルが正常に生成されたかどうかを示します。
- テーブル ID
- このテーブルの ID。
- テーブルの作成日時
- テーブルが作成された日時。
- テーブルのサイズ
- プロファイルが生成されたときのこのテーブルのサイズ。
- 種類
- 実施する検出のタイプ。
列データ プロファイル
各列データ プロファイルには、次のフィールドがあります。
Insights
列データ プロファイルを使用すると、次の分析情報が得られます。
- データリスク
- 現状態のデータに関連付けられるリスクのレベル。詳細については、機密性とデータリスク レベルをご覧ください。
- 機密性
- この列の機密レベルを示すスコア。詳細については、機密性とデータリスク レベルをご覧ください。
- 予測済み infoType
単一の組み込み infoType またはカスタム infoType が列内の他の infoType よりも明確に優先される場合、機密データの保護では、このフィールドがその infoType に設定されます。それ以外の場合、このフィールドには値がありません。
この列で検出されたすべての infoTypes のリストを表示するには、その他の infoType フィールドをご覧ください。
機密データの保護は、検査テンプレートで指定した infoType のみをスキャンします。したがって、[予測済み infoType] フィールドには、これらの infoType だけが表示されます。たとえば、列にメールアドレスがあるが、検査テンプレートに
EMAIL_ADDRESS
infoType 検出器を含めていない場合、このフィールドにはEMAIL_ADDRESS
は含まれません。このドキュメントのその他の infoType をご覧ください。
- その他の infoType
列で検出された、その列の予測済み infoType と見なすことができる十分なシグナルがない infoType。このドキュメントでは、予測済み infoType をご覧ください。
2022 年 10 月 13 日以降に生成されたデータ プロファイルの場合、このフィールドにリストされている各 infoType には推定出現率があります。推定頻度は、infoType が検出された null 以外の行のおおよその割合です。
たとえば、次の指標を持つ列があるとします。
- 予測済み infoType:
FDA_CODE
- その他の infoType:
PERSON_NAME (2%)
、STREET_ADDRESS (1%)
この例では、列に FDA コードが含まれていることが強く示されています。また、機密データの保護は、この列内の null 以外の行の約 2% に人名が含まれ、1% に住所が含まれている可能性があることも確認しました。
機密データの保護は、検査テンプレートで指定した infoType のみをスキャンします。したがって、[その他の infoType] フィールドには、これらの infoType のみが表示されます。たとえば、列にメールアドレスがあるが、検査テンプレートに
EMAIL_ADDRESS
infoType 検出器を含めていない場合、このフィールドにはEMAIL_ADDRESS
は含まれません。- 予測済み infoType:
- 推定の null 割合
この列の null 値の近似率。高、中、低、非常に低に分類されます。この列のエントリの大部分が null の場合、この値は「高」になります。
- 推定の一意性
この列で一意であるデータ量の推定値。高、中、低に分類されます。高い一意性レベルは、列に個別の値が含まれることを示します。個別の値が多い場合は、列に識別子が含まれている可能性があります。
低い一意性レベルは、列に列挙型やブール値などの一般的な値が多数含まれることを意味します。
機密データの保護によって、この指標を計算するのに十分な行がテーブル内にないと判断された場合、この値は空白になります。
- 自由テキストのスコア
この列が自由形式のテキストで構成されている確率。値が 1 に近い場合、列が自由形式のテキストまたは自然言語のテキストで構成されている可能性があります。有効な値の範囲は 0~1 です。
フリーテキスト スコアが高いと、列のデータリスクと機密性レベルが増加する可能性があります。
メタデータ
列データ プロファイルには次のメタデータがあります。
- データベース
- プロファイリングされたテーブル列を含むデータベース。このフィールドは、Cloud SQL 検出にのみ適用されます。
- データ型
- この列のコンテンツのデータ型。
- データセット ID
- このテーブル列を含むデータセットの ID。
- フィールド ID
- 列の名前。
- インスタンス
- プロファイリングされたテーブル列を含むインスタンス。このフィールドは、Cloud SQL 検出にのみ適用されます。
- インスタンスのロケーション
- プロファイリングされたテーブル列を含むインスタンスの場所。このフィールドは、Cloud SQL 検出にのみ適用されます。
- プロファイルが最後に生成された日時
- プロファイルが最後に生成された日時。
- ポリシータグ
- ポリシータグが列に適用されているかどうかを示します。ポリシータグの使用に関するベスト プラクティスについては、BigQuery でのポリシータグの使用をご覧ください。
- プロジェクト ID
- このテーブル列を含むプロジェクトの ID。
- リソース名
- データ プロファイルの完全修飾名。
- ステータス
- プロファイリング オペレーションのステータスを示すアイコン。
- テーブル ID
- この列を含むテーブルの ID。