BigQuery テーブルのデータリネージを追跡する
データリネージを使用すると、データがシステム内をどのように移動するか、つまりデータがどこから来て、どこに渡され、どのような変換がデータに適用されるかを追跡できます。
BigQuery のコピージョブとクエリジョブでデータリネージの追跡を開始する方法を学習します。
一般公開されている
new_york_taxi_trips
データセットから 2 つのテーブルをコピーします。両方のテーブルからのタクシー乗車の合計数を新しいテーブルに統合します。
3 つのオペレーションすべてのリネージ可視化グラフを表示します。
準備
プロジェクトを設定する:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。
-
Data Catalog, BigQuery, and data lineage API を有効にします。
-
Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。
-
Data Catalog, BigQuery, and data lineage API を有効にします。
必要なロール
リネージの可視化グラフを表示するために必要な権限を取得するには、次の IAM ロールを管理者に依頼してください。
-
Data Catalog リソース プロジェクトの Data Catalog 閲覧者 (
roles/datacatalog.viewer
) -
BigQuery を使用するプロジェクトのデータリネージ閲覧者(
roles/datalineage.viewer
) -
BigQuery を使用するプロジェクトの BigQuery データ閲覧者(
roles/bigquery.dataViewer
)
ロールの付与の詳細については、アクセスの管理をご覧ください。
一般公開データセットをプロジェクトに追加する
Google Cloud コンソールで [BigQuery] ページに移動します。
[エクスプローラ] ペインで、[追加] をクリックします。
[追加] ペインで、
Public datasets
を検索し、[一般公開データセット] の結果を選択します。[Marketplace] ペインで
NYC TLC Trips
を検索し、[NYC TLC Trips] の結果をクリックします。[データセットを表示] をクリックします。
この手順では、データセット new_york_taxi_trips をプロジェクトに追加します。詳細ペインには次のデータセット ID、データのロケーションおよび最終更新日時のようなデータセット情報を含む情報が表示されます。
プロジェクトにデータセットを作成する
[エクスプローラ] ペインで、データセットを作成するプロジェクトを選択します。
アクション アイコンをクリックし、[データセットを作成] をクリックします。
[データセットを作成] ページで、[データセット ID] フィールドに「
data_lineage_demo
」と入力します。他のフィールドはデフォルト値のままにします。[データセットを作成] をクリックします。
[エクスプローラ] ペインで、新しく追加した
data_lineage_demo
をクリックします。
詳細ペインには、そのデータセット情報が表示されます。
2 つの一般公開テーブルをデータセットにコピーする
クエリエディタを開きます。詳細ペインで、
data_lineage_demo
という名前のタブの横にある (新しいクエリを作成)をクリックします。このステップで、Untitled
というタブを作成します。クエリエディタで、次のクエリを入力して最初のテーブルをコピーします。
PROJECT_ID
はプロジェクトの ID に置き換えます。CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
[実行] をクリックします。 この手順で、nyc_green_trips_2021
という最初のテーブルが作成されます。[クエリ結果] ペインで、[テーブルに移動] をクリックします。このステップでは、最初のテーブルの内容が表示されます。
クエリエディタで、前のクエリを次のクエリに置き換えて、2 番目のテーブルをコピーします。
PROJECT_ID
はプロジェクトの ID に置き換えます。CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
[実行] をクリックします。 この手順では、nyc_green_trips_2022
という 2 つ目のテーブルを作成します。[クエリ結果] ペインで、[テーブルに移動] をクリックします。この手順では、2 番目のテーブルの内容を表示します。
データを新しいテーブルに集計する
クエリエディタで、次のクエリを入力します。
PROJECT_ID
は プロジェクトの ID に置き換えます。CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21` AS SELECT vendor_id, COUNT(*) AS number_of_trips FROM ( SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022` UNION ALL SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021` ) GROUP BY vendor_id
[実行] をクリックします。 この手順により、total_green_trips_22_21
という結合テーブルが作成されます。[クエリ結果] ペインで、[テーブルに移動] をクリックします。このステップでは、結合されたテーブルが表示されます。
Dataplex でリネージグラフを表示する
Dataplex の検索ページを開く
[検索] ボックスに「
total_green_trips_22_21
」と入力し、[検索] をクリックします。結果のリストで [
total_green_trips_22_21
] をクリックします。このステップにより、BigQuery テーブルの [詳細] タブが表示されます。[リネージ] タブをクリックします。
リネージグラフでは、各四角形のノードが元のテーブル、コピーされたテーブル、または結合されたテーブルのいずれかを表します。以下の操作を行います。
テーブルの送信元を表示または非表示にするには、[+](展開)または [-](折りたたみ)をクリックします。
ノード情報をクリックして、テーブル情報を表示します。このステップでは、ノードの [詳細] ペインが表示されます。
プロセス情報を表示するには、 プロセス アイコンをクリックします。このステップには、ソーステーブルをターゲット テーブルに変換したジョブを示すプロセスの [詳細] ペインが表示されます。
クリーンアップ
このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を実施します。
プロジェクトを削除する
課金をなくす最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。
プロジェクトを削除するには:
- Google Cloud コンソールで、[リソースの管理] ページに移動します。
- プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
- ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。
データセットの削除
BigQuery ページに移動します。
[エクスプローラ] ペインで、作成した
data_lineage_demo
データセットを検索します。データセットを右クリックして、[削除] を選択します。
削除のアクションを確認します。
次のステップ
- Dataplex とデータリネージの詳細を確認する。
- BigQuery クエリを実行する方法を学習する。
- データリネージの使用方法とデータリネージ グラフを表示する方法を学習する。
- Dataplex の料金と課金について学習する。