このページは Cloud Translation API によって翻訳されました。

データプロファイルスキャンを作成して使用する

Dataplex Universal Catalog を使用すると、BigQuery テーブル内の列の一般的な統計的特性（一般的な値、データ分布、NULL 数）を特定できます。この情報は、データをより効果的に理解、分析するために活用できます。

Dataplex Universal Catalog データプロファイルスキャンの詳細については、データプロファイリングの概要をご覧ください。

始める前に

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

必要なロール

BigQuery テーブルをプロファイリングするには、次の権限が必要です。

BigQuery テーブルでデータプロファイルスキャンを実行するには、BigQuery テーブルの読み取り権限と、テーブルのスキャンに使用するプロジェクトで BigQuery ジョブを作成するための権限が必要です。

注: Dataplex Universal Catalog は、プロジェクト内に BigQuery ジョブを作成しません。ただし、テーブルの権限を確認するために、DryRun ジョブを作成するための権限が必要です。
BigQuery テーブルとデータプロファイルスキャンが異なるプロジェクトにある場合、Dataplex Universal Catalog サービスアカウントに、対応する BigQuery テーブルの読み取り権限を付与する必要があります。

注: データ品質スキャンやデータプロファイルスキャンをまだ作成していない場合、または BigQuery プロジェクトに Dataplex Universal Catalog レイクがない場合は、gcloud beta services identity create --service=dataplex.googleapis.com を実行してサービス ID を作成してください。このコマンドは、Dataplex Universal Catalog サービス ID が存在する場合に該当する ID を返します。
BigQuery データが Dataplex Universal Catalog レイクで編成されている場合、データプロファイルスキャンを作成するには、Dataplex Universal Catalog ロールの roles/dataplex.metadataReader と roles/dataplex.viewer が必要です。これにより次の権限が付与されます。
- dataplex.lakes.list
- dataplex.lakes.get
- dataplex.zones.list
- dataplex.zones.get
- dataplex.entities.list
- dataplex.entities.get
- dataplex.operations.get
Cloud Storage から BigQuery の外部テーブルをスキャンする場合は、Dataplex Universal Catalog サービスアカウントに Storage オブジェクト閲覧者（roles/storage.objectViewer）ロールまたは次のバケットに対する権限を割り当てます。
- storage.buckets.get
- storage.objects.get
Google Cloud コンソールの BigQuery ページと Dataplex Universal Catalog ページでソーステーブルのデータプロファイルスキャンの結果を公開する場合は、テーブルに対する BigQuery データ編集者（roles/bigquery.dataEditor）ロールが付与されている必要があります。または、次のすべての権限が必要です。
- bigquery.tables.get
- bigquery.tables.update
- bigquery.tables.updateData
- bigquery.tables.delete
スキャン結果を BigQuery テーブルにエクスポートするには、Dataplex Universal Catalog サービスアカウントに BigQuery データ編集者（roles/bigquery.dataEditor）ロールが必要です。これにより次の権限が付与されます。
- bigquery.datasets.get
- bigquery.tables.create
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.tables.update
- bigquery.tables.updateData
BigQuery の列レベルのアクセスポリシーで保護されている列にアクセスする必要がある場合は、それらの列に対する権限を Dataplex Universal Catalog サービスアカウントに割り当てます。データスキャンを作成または更新しているユーザーには、列に対する権限も必要です。
テーブルで BigQuery 行レベルのアクセスポリシーが有効になっている場合、Dataplex Universal Catalog サービスアカウントに表示される行のみをスキャンできます。行レベルのポリシーに対する個々のユーザーのアクセス権限は評価されません。

データスキャンのロールと権限

データプロファイリングを使用するには、次のいずれかの IAM ロールを付与するよう管理者に依頼してください。

roles/dataplex.dataScanAdmin: DataScan リソースに対する完全アクセス権。
roles/dataplex.dataScanEditor: DataScan リソースに対する書き込みアクセス権。
roles/dataplex.dataScanViewer: DataScan リソースに対する読み取りアクセス権（結果を除く）。
roles/dataplex.dataScanDataViewer: DataScan リソースに対する読み取りアクセス権（結果を含む）。

次の表に、データスキャンの権限を示します。

権限名	次のことをする権限を付与します。
`dataplex.datascans.create`	`DataScan` を作成する
`dataplex.datascans.delete`	`DataScan` の削除
`dataplex.datascans.get`	`DataScan` の詳細の表示（結果を除く）
`dataplex.datascans.getData`	`DataScan` の詳細の表示（結果を含む）
`dataplex.datascans.list`	`DataScan` を一覧表示する
`dataplex.datascans.run`	`DataScan` を実行する
`dataplex.datascans.update`	`DataScan` の説明を更新する
`dataplex.datascans.getIamPolicy`	スキャンの現在の IAM 権限を表示
`dataplex.datascans.setIamPolicy`	スキャンの IAM 権限を設定

データプロファイルスキャンを作成する

コンソール

Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。

[データのプロファイリングと品質] に移動
[データプロファイルスキャンの作成] をクリックします。
省略可: 表示名を入力します。
ID を入力します。リソースの命名規則をご覧ください。
（省略可）説明を入力します。
[テーブル] フィールドで、[参照] をクリックします。スキャンするテーブルを選択し、[選択] をクリックします。

マルチリージョンデータセット内のテーブルの場合は、データスキャンを作成するリージョンを選択します。

Dataplex Universal Catalog レイク内で整理されたテーブルを参照するには、[Dataplex レイク内のブラウジング] をクリックします。
[スコープ] フィールドで、[増分] または [データ全体] を選択します。
- [増分データ] を選択した場合、[タイムスタンプ列] フィールドで、新しいレコードが追加されるたびに増加し、新しいレコードの識別に使用できる BigQuery テーブルから、DATE 型または TIMESTAMP 型の列を選択します。DATE 型または TIMESTAMP 型の列でパーティション分割されたテーブルでは、パーティション列をタイムスタンプフィールドとして使用することをおすすめします。
省略可: データをフィルタするには、次のいずれかを行います。
- 行でフィルタするには、[行のフィルタリング] チェックボックスをオンにします。GoogleSQL 構文の WHERE 句で使用できる有効な SQL 式を入力します。例: col1 >= 0。
  
  フィルタには、複数の列に対する SQL 条件を組み合わせることができます。例: col1 >= 0 AND col2 < 10。
- 列でフィルタするには、[フィルタ列] チェックボックスをオンにします。
  - プロファイルスキャンに列を含めるには、[列を含める] フィールドで [参照] をクリックします。含める列を選択し、[選択] をクリックします。
  - プロファイルスキャンから列を除外するには、[列を除外する] フィールドで [参照] をクリックします。除外する列を選択し、[選択] をクリックします。
  注: [列を含める]、[列を除外する]、またはその両方を使用できます。両方のフィールドを使用する場合、データプロファイルスキャンはまず [列を含める] フィールドの入力値に基づいて列を選択し、次に [列を除外する] フィールドの入力値に基づいて列を除外します。
データプロファイルスキャンにサンプリングを適用するには、[サンプリングサイズ] リストでサンプリングの割合を選択します。0.0～100.0% の範囲のパーセンテージ値（小数点以下 3 桁まで）を選択します。
- 大規模なデータセットの場合は、低いサンプリング率を選択します。たとえば、1 PB のテーブルの場合、0.1%～1.0% の値を入力すると、データプロファイルは 1～10 TB のデータをサンプリングします。
- 結果を返すには、サンプリングデータにレコードが 100 個以上必要です。
- 増分データスキャンの場合、データプロファイルスキャンは最新の増分にサンプリングを適用します。
省略可:Google Cloud コンソールの BigQuery ページと Dataplex Universal Catalog ページでソーステーブルのデータプロファイルスキャンの結果を公開するには、[BigQuery と Dataplex Catalog UI に結果を公開する] チェックボックスをオンにします。

最新のスキャン結果は、ソーステーブルの BigQuery ページと Dataplex Universal Catalog ページの [データプロファイル] タブで表示できます。ユーザーが公開されたスキャン結果にアクセスできるようにするには、このドキュメントのデータプロファイルスキャン結果へのアクセス権を付与するをご覧ください。

次の場合には、公開オプションを使用できないことがあります。
- テーブルに必要な権限がない。
- 結果を公開するように別のデータ品質スキャンが設定されている。
[スケジュール] セクションで、次のいずれかのオプションを選択します。
- 繰り返し: データプロファイルスキャンを 1 時間ごと、毎日、毎週、毎月、カスタムのいずれかのスケジュールで実行します。スキャンの実行頻度と時間を指定します。[カスタム] を選択した場合は、cron 形式を使用してスケジュールを指定します。
- オンデマンド: データプロファイルスキャンをオンデマンドで実行します。
[続行] をクリックします。
省略可: スキャン結果を BigQuery 標準テーブルにエクスポートします。[スキャン結果を BigQuery テーブルにエクスポートする] セクションで、次の操作を行います。
1. [BigQuery データセットの選択] フィールドで、[参照] をクリックします。データプロファイルのスキャン結果を保存する BigQuery データセットを選択します。
2. [BigQuery テーブル] フィールドで、データプロファイルスキャンの結果を保存するテーブルを指定します。既存のテーブルを使用している場合は、エクスポートテーブルスキーマと互換性があることを確認してください。指定したテーブルが存在しない場合は、Dataplex Universal Catalog によって作成されます。
  
  注: 複数のデータプロファイルスキャンに同じ結果テーブルを使用できます。
省略可: ラベルを追加します。ラベルは、関連するオブジェクトをまとめてグループ化したり、他の Google Cloud リソースと組み合わせてグループ化できる Key-Value ペアです。
スキャンを作成するには、[作成] をクリックします。

スケジュールをオンデマンドに設定した場合は、[スキャンを実行] をクリックして、今すぐスキャンを実行することもできます。

gcloud

データプロファイルスキャンを作成するには、gcloud dataplex datascans create data-profile コマンドを使用します。

ソースデータが Dataplex Universal Catalog レイクに編成されている場合は、--data-source-entity フラグを指定します。

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

ソースデータが Dataplex Universal Catalog レイクに編成されていない場合は、--data-source-resource フラグを指定します。

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

次の変数を置き換えます。

DATASCAN: データプロファイルスキャンの名前。
LOCATION: データプロファイルスキャンを作成する Google Cloud リージョン。
DATA_SOURCE_ENTITY: データプロファイルスキャンのデータを含む Dataplex Universal Catalog エンティティ。例: projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE: データプロファイルスキャンのデータを含むリソースの名前。例: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

REST

データプロファイルスキャンを作成するには、dataScans.create メソッドを使用します。

テーブルスキーマをエクスポートする

データプロファイルスキャンの結果を既存の BigQuery テーブルにエクスポートする場合は、次のテーブルスキーマと互換性があることを確認してください。

列名	列データ型	サブフィールド名（該当する場合）	サブフィールドのデータ型	モード	例
data_profile_scan	`struct/record`	`resource_name`	`string`	null でも可	`//dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan`
		`project_id`	`string`	null でも可	`test-project`
		`location`	`string`	null でも可	`us-central1`
		`data_scan_id`	`string`	null でも可	`test-datascan`
data_source	`struct/record`	`resource_name`	`string`	nullable	エンティティのケース: `//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity` テーブルのケース: `//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table`
		`dataplex_entity_project_id`	`string`	nullable	`test-project`
		`dataplex_entity_project_number`	`integer`	null でも可	`123456789012`
		`dataplex_lake_id`	`string`	nullable	（ソースがエンティティである場合にのみ有効） `test-lake`
		`dataplex_zone_id`	`string`	nullable	（ソースがエンティティである場合にのみ有効） `test-zone`
		`dataplex_entity_id`	`string`	nullable	（ソースがエンティティである場合にのみ有効） `test-entity`
		`table_project_id`	`string`	nullable	`dataplex-table`
		`table_project_number`	`int64`	null でも可	`345678901234`
		`dataset_id`	`string`	nullable	（ソースがテーブルである場合にのみ有効） `test-dataset`
		`table_id`	`string`	nullable	（ソースがテーブルである場合にのみ有効） `test-table`
data_profile_job_id	`string`			null でも可	`caeba234-cfde-4fca-9e5b-fe02a9812e38`
data_profile_job_configuration	`json`	`trigger`	`string`	null でも可	`ondemand`/`schedule`
		`incremental`	`boolean`	null でも可	`true`/`false`
		`sampling_percent`	`float`	nullable	(0-100) `20.0`（20% を示す）
		`row_filter`	`string`	nullable	`col1 >= 0 AND col2 < 10`
		`column_filter`	`json`	null でも可	`{"include_fields":["col1","col2"], "exclude_fields":["col3"]}`
job_labels	`json`			null でも可	`{"key1":value1}`
job_start_time	`timestamp`			null でも可	`2023-01-01 00:00:00 UTC`
job_end_time	`timestamp`			null でも可	`2023-01-01 00:00:00 UTC`
job_rows_scanned	`integer`			null でも可	`7500`
column_name	`string`			null でも可	`column-1`
column_type	`string`			null でも可	`string`
column_mode	`string`			null でも可	`repeated`
percent_null	`float`			nullable	(0.0-100.0) `20.0`（20% を示す）
percent_unique	`float`			nullable	(0.0-100.0) `92.5`
min_string_length	`integer`			nullable	（列の型が文字列の場合にのみ有効） `10`
max_string_length	`integer`			nullable	（列の型が文字列の場合にのみ有効） `4`
average_string_length	`float`			nullable	（列の型が文字列の場合にのみ有効） `7.2`
min_value	`float`			null でも可	（列の型が数値 - 整数 / 浮動小数点の場合のみ有効）
max_value	`float`			null でも可	（列の型が数値 - 整数 / 浮動小数点の場合のみ有効）
average_value	`float`			null でも可	（列の型が数値 - 整数 / 浮動小数点の場合のみ有効）
standard_deviation	`float`			null でも可	（列の型が数値 - 整数 / 浮動小数点の場合のみ有効）
quartile_lower	`integer`			null でも可	（列の型が数値 - 整数 / 浮動小数点の場合のみ有効）
quartile_median	`integer`			null でも可	（列の型が数値 - 整数 / 浮動小数点の場合のみ有効）
quartile_upper	`integer`			null でも可	（列の型が数値 - 整数 / 浮動小数点の場合のみ有効）
top_n	`struct/record - repeated`	`value`	`string`	null でも可	`"4009"`
		`count`	`integer`	null でも可	`20`
		`percent`	`float`	null でも可	`10`（10% を示す）

テーブルの設定をエクスポートする

BigQueryExport テーブルにエクスポートする場合は、次のガイドラインに沿って行ってください。

resultsTable フィールドには、//bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id} の形式を使用します。
BigQuery 標準テーブルを使用します。
スキャンが作成または更新されたときにテーブルが存在しない場合は、Dataplex Universal Catalog によってテーブルが作成されます。
デフォルトでは、テーブルは job_start_time 列で毎日パーティション分割されます。
テーブルを他の構成でパーティション分割する場合や、パーティションを作成しない場合は、必要なスキーマと構成でテーブルを再作成し、事前に作成されたテーブルを結果テーブルとして用意します。
結果テーブルがソーステーブルと同じロケーションにあることを確認します。
プロジェクトで VPC-SC が構成されている場合、結果テーブルはソーステーブルと同じ VPC-SC 境界内にある必要があります。
スキャン実行ステージでテーブルが変更されると、現在実行中のジョブが以前の結果テーブルにエクスポートされ、テーブルの変更は次のスキャンジョブから有効になります。
テーブルスキーマを変更しないでください。列をカスタマイズする必要がある場合は、テーブルにビューを作成します。
費用を削減するには、ユースケースに基づいてパーティションの有効期限を設定します。詳細については、パーティションの有効期限を設定する方法をご覧ください。

複数のデータプロファイルスキャンを作成する

Google Cloud コンソールを使用して、BigQuery データセット内の複数のテーブルのデータプロファイルスキャンを同時に構成できます。

Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。

[データのプロファイリングと品質] に移動
[データプロファイルスキャンの作成] をクリックします。
[複数のデータプロファイルスキャン] オプションを選択します。
ID 接頭辞を入力します。Dataplex Universal Catalog は、指定された接頭辞と一意の接尾辞を使用して、スキャン ID を自動的に生成します。
すべてのデータプロファイルスキャンの説明を入力します。
[データセット] フィールドで [参照] をクリックします。テーブルを選択するデータセットを選択します。[選択] をクリックします。
データセットがマルチリージョンの場合は、データプロファイルスキャンを作成するリージョンを選択します。
スキャンの共通設定を構成します。
1. [スコープ] フィールドで、[増分] または [データ全体] を選択します。
  
  注: [増分] データを選択した場合、DATE 型または TIMESTAMP 型の列でパーティション分割されているテーブルのみを選択できます。
2. データプロファイルスキャンにサンプリングを適用するには、[サンプリングサイズ] リストでサンプリングのパーセンテージを選択します。
  
  0.0%～100.0% の間のパーセンテージ値（小数点以下 3 桁まで）を選択します。
3. 省略可:Google Cloud コンソールの BigQuery ページと Dataplex Universal Catalog ページでソーステーブルのデータプロファイルスキャンの結果を公開するには、[BigQuery と Dataplex Catalog UI に結果を公開する] チェックボックスをオンにします。
  
  最新のスキャン結果は、ソーステーブルの BigQuery ページと Dataplex Universal Catalog ページの [データプロファイル] タブで表示できます。ユーザーが公開されたスキャン結果にアクセスできるようにするには、このドキュメントのデータプロファイルスキャン結果へのアクセス権を付与するをご覧ください。
  
  注: 結果を公開している既存のスキャンがないテーブルを選択する必要があります。
4. [スケジュール] セクションで、次のいずれかのオプションを選択します。
  - 繰り返し: データプロファイルスキャンを 1 時間ごと、毎日、毎週、毎月、カスタムのいずれかのスケジュールで実行します。スキャンの実行頻度と時間を指定します。[カスタム] を選択した場合は、cron 形式を使用してスケジュールを指定します。
  - オンデマンド: データプロファイルスキャンをオンデマンドで実行します。
[続行] をクリックします。
[テーブルを選択] フィールドで、[参照] をクリックします。スキャンするテーブルを 1 つ以上選択し、[選択] をクリックします。
[続行] をクリックします。
省略可: スキャン結果を BigQuery 標準テーブルにエクスポートします。[スキャン結果を BigQuery テーブルにエクスポートする] セクションで、次の操作を行います。
1. [BigQuery データセットの選択] フィールドで、[参照] をクリックします。データプロファイルのスキャン結果を保存する BigQuery データセットを選択します。
2. [BigQuery テーブル] フィールドで、データプロファイルスキャンの結果を保存するテーブルを指定します。既存のテーブルを使用している場合は、エクスポートテーブルスキーマと互換性があることを確認してください。指定したテーブルが存在しない場合は、Dataplex Universal Catalog によって作成されます。
  
  Dataplex Universal Catalog は、すべてのデータプロファイルスキャンに同じ結果テーブルを使用します。
省略可: ラベルを追加します。ラベルは、関連するオブジェクトをまとめてグループ化したり、他の Google Cloud リソースと組み合わせてグループ化できる Key-Value ペアです。
スキャンを作成するには、[作成] をクリックします。

スケジュールをオンデマンドに設定した場合は、[スキャンを実行] をクリックして、今すぐスキャンを実行することもできます。

データプロファイルスキャンを実行する

コンソール

Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。

[データのプロファイリングと品質] に移動
データプロファイルスキャンをクリックして実行します。
[今すぐ実行] をクリックします。

gcloud

データプロファイルスキャンを実行するには、gcloud dataplex datascans run コマンドを使用します。

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

次の変数を置き換えます。

DATASCAN: データプロファイルスキャンの名前。
LOCATION: データプロファイルスキャンが作成された Google Cloud リージョン。

REST

データプロファイルスキャンを実行するには、dataScans.run メソッドを使用します。

データプロファイルスキャンの結果を表示する

コンソール

Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。

[データのプロファイリングと品質] に移動
データプロファイルスキャンの名前をクリックします。
- [概要] セクションには、スキャンが実行された日時、スキャンされたテーブルレコードの数、ジョブのステータスなど、最新のジョブに関する情報が表示されます。
- [Data profile scan configuration] セクションには、スキャンについての詳細が表示されます。
スキャンされたテーブルの列、スキャンで見つかった列に関する統計情報、ジョブログなど、ジョブの詳細情報を確認するには、[ジョブ履歴] タブをクリックします。ジョブ ID をクリックします。

gcloud

データプロファイルスキャンジョブの結果を表示するには、gcloud dataplex datascans jobs describe コマンドを使用します。

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

次の変数を置き換えます。

JOB: データプロファイルスキャンジョブのジョブ ID。
LOCATION: データプロファイルスキャンが作成された Google Cloud リージョン。
DATASCAN: ジョブが属するデータプロファイルスキャンの名前。
--view=FULL: スキャンジョブの結果を表示するには、FULL を指定します。

REST

データプロファイルスキャンの結果を表示するには、dataScans.get メソッドを使用します。

公開された結果を表示する

データプロファイルスキャンの結果が Google Cloud コンソールの BigQuery ページと Dataplex Universal Catalog ページに公開されている場合は、ソーステーブルの [データプロファイル] タブで最新のスキャン結果を確認できます。

Google Cloud コンソールで、Dataplex Universal Catalog の [検索] ページに移動します。

検索に移動
テーブルを検索して選択します。
[データプロファイル] タブをクリックします。

最後に公開された結果が表示されます。

注: スキャンを初めて実行している場合、公開された結果を使用できないことがあります。

コンソール

Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。

[データのプロファイリングと品質] に移動
データプロファイルスキャンの名前をクリックします。
[ジョブの最新結果] タブをクリックします。

正常に完了した実行が少なくとも 1 つある場合、[ジョブの最新結果] タブには、最新のジョブに関する情報が表示されます。スキャンされたテーブルの列と、スキャンで検出された列に関する統計情報が一覧表示されます。

gcloud

正常に完了した最新のデータプロファイルスキャンを表示するには、gcloud dataplex datascans describe コマンドを使用します。

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

次の変数を置き換えます。

DATASCAN: 最新のジョブを表示するデータプロファイルスキャンの名前。
LOCATION: データプロファイルスキャンが作成された Google Cloud リージョン。
--view=FULL: スキャンジョブの結果を表示するには、FULL を指定します。

REST

最新のスキャンジョブを表示するには、dataScans.get メソッドを使用します。

スキャン結果の履歴を表示する

Dataplex Universal Catalog には、過去 300 件のジョブ、または過去 1 年間のジョブのいずれか早いほうのデータプロファイルスキャンの履歴が保存されます。

コンソール

Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。

[データのプロファイリングと品質] に移動
データプロファイルスキャンの名前をクリックします。
[ジョブ履歴] タブをクリックします。

[ジョブ履歴] タブには、過去のジョブに関する情報（各ジョブでスキャンされたレコード数、ジョブのステータス、ジョブの実行時刻など）が表示されます。
ジョブについての詳細情報を表示するには、[ジョブ ID] 列でジョブをクリックします。

gcloud

過去のデータプロファイルスキャンジョブを表示するには、gcloud dataplex datascans jobs list コマンドを使用します。

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

次の変数を置き換えます。

LOCATION: データプロファイルスキャンが作成された Google Cloud リージョン。
DATASCAN: ジョブを表示するデータプロファイルスキャンの名前。

REST

過去のデータプロファイルスキャンジョブを表示するには、dataScans.jobs.list メソッドを使用します。

組織内のユーザーがスキャン結果を表示できるようにするには、次の操作を行います。

Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。

[データのプロファイリングと品質] に移動
結果を共有するデータ品質スキャンをクリックします。
[権限] タブをクリックします。
手順は次のとおりです。
- プリンシパルにアクセス権を付与するには、[ アクセス権を付与] をクリックします。関連するプリンシパルに Dataplex DataScan データ閲覧者ロールを付与します。
- プリンシパルからアクセス権を削除するには、Dataplex DataScan データ閲覧者ロールを削除するプリンシパルを選択します。[アクセス権を削除] をクリックし、プロンプトが表示されたら確定します。

特定のテーブルのデータプロファイルスキャンを管理する

このドキュメントの手順では、 Google Cloud コンソールの Dataplex Universal Catalog の [データのプロファイリングと品質] ページを使用して、プロジェクト全体でデータプロファイルスキャンを管理する方法について説明します。

特定のテーブルを操作するときに、データプロファイルスキャンを作成して管理することもできます。 Google Cloud コンソールのテーブルの Dataplex Universal Catalog ページで、[データプロファイル] タブを使用します。手順は次のとおりです。

Google Cloud コンソールで、Dataplex Universal Catalog の [検索] ページに移動します。

検索に移動

テーブルを検索して選択します。
[データプロファイル] タブをクリックします。
結果が公開されているデータプロファイルスキャンがテーブルにあるかどうかに応じて、次の方法でテーブルのデータプロファイルスキャンを操作できます。
- データプロファイルスキャンの結果が公開されている: 最新の公開済みスキャンの結果がページに表示されます。
  
  このテーブルのデータプロファイルスキャンを管理するには、[データプロファイルスキャン] をクリックし、次のいずれかのオプションを選択します。
  - 新しいスキャンを作成: 新しいデータプロファイルスキャンを作成します。詳細については、このドキュメントのデータプロファイルスキャンを作成するをご覧ください。テーブルの詳細ページからスキャンを作成すると、テーブルが事前に選択されます。
  - 今すぐ実行: スキャンを実行します。
  - スキャン構成を編集: 表示名、フィルタ、サンプリングサイズ、スケジュールなどの設定を編集します。
  - スキャン権限を管理: スキャン結果にアクセスできるユーザーを制御します。詳細については、このドキュメントのデータプロファイルスキャンの結果へのアクセスを許可するをご覧ください。
  - 過去の結果を見る: 以前のデータプロファイルスキャンジョブの詳細情報を表示します。詳細については、このドキュメントのデータプロファイルスキャン結果を表示すると過去のスキャン結果を表示するのセクションをご覧ください。
  - すべてのスキャンを表示: このテーブルに適用されるデータプロファイルスキャンのリストを表示します。
- データプロファイルスキャンの結果が公開されていない: [クイックデータプロファイル] の横にあるメニューをクリックし、次のオプションから選択します。
  - データプロファイリングをカスタマイズ: 新しいデータプロファイルスキャンを作成します。詳細については、このドキュメントのデータプロファイルスキャンを作成するをご覧ください。テーブルの詳細ページからスキャンを作成すると、テーブルが事前に選択されます。
  - 以前のプロファイルを表示: このテーブルに適用されるデータプロファイルスキャンのリストを表示します。

データプロファイルスキャンを更新する

コンソール

Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。

[データのプロファイリングと品質] に移動
データプロファイルスキャンの名前をクリックします。
[編集] をクリックし、値を編集します。
[保存] をクリックします。

gcloud

データプロファイルスキャンを更新するには、gcloud dataplex datascans update data-profile コマンドを使用します。

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

次の変数を置き換えます。

DATASCAN: 更新するデータプロファイルスキャンの名前。
LOCATION: データプロファイルスキャンが作成された Google Cloud リージョン。
DESCRIPTION: データプロファイルスキャンの新しい説明。

REST

データプロファイルスキャンを編集するには、dataScans.patch メソッドを使用します。

データプロファイルスキャンを削除する

コンソール

Google Cloud コンソールで、Dataplex Universal Catalog の [データのプロファイリングと品質] ページに移動します。

[データのプロファイリングと品質] に移動
削除するスキャンをクリックします。
[削除] をクリックし、プロンプトが表示されたら確定します。

gcloud

データプロファイルスキャンを削除するには、gcloud dataplex datascans delete コマンドを使用します。

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

次の変数を置き換えます。

DATASCAN: 削除するデータプロファイルスキャンの名前。
LOCATION: データプロファイルスキャンが作成された Google Cloud リージョン。

REST

データプロファイルスキャンを削除するには、dataScans.delete メソッドを使用します。

次のステップ

データ分析情報を生成してデータを探索する方法について学習する。
データプロファイリングについて確認する。
自動データ品質について学習する。
自動データ品質を使用する方法を学習する。

データ プロファイル スキャンを作成して使用する

始める前に

必要なロール

データスキャンのロールと権限

データ プロファイル スキャンを作成する

コンソール

gcloud

REST

テーブル スキーマをエクスポートする

テーブルの設定をエクスポートする

複数のデータ プロファイル スキャンを作成する

データ プロファイル スキャンを実行する

コンソール

gcloud

REST

データ プロファイル スキャンの結果を表示する

コンソール

gcloud

REST

公開された結果を表示する

最新のデータ プロファイル スキャン ジョブを表示する

コンソール

gcloud

REST

スキャン結果の履歴を表示する

コンソール

gcloud

REST

データ プロファイル スキャンの結果へのアクセスを許可する

特定のテーブルのデータ プロファイル スキャンを管理する

データ プロファイル スキャンを更新する

コンソール

gcloud

REST

データ プロファイル スキャンを削除する

コンソール

gcloud

REST

次のステップ

データプロファイルスキャンを作成して使用する

データプロファイルスキャンを作成する

テーブルスキーマをエクスポートする

複数のデータプロファイルスキャンを作成する

データプロファイルスキャンを実行する

データプロファイルスキャンの結果を表示する

最新のデータプロファイルスキャンジョブを表示する

データプロファイルスキャンの結果へのアクセスを許可する

特定のテーブルのデータプロファイルスキャンを管理する

データプロファイルスキャンを更新する

データプロファイルスキャンを削除する