データ系列の探索

このチュートリアルでは、Cloud Data Fusion を使用して、データリネージ(データの起源とその経緯)を調べる方法を説明します。

Cloud Data Fusion のデータリネージ

Cloud Data Fusion のデータリネージは次の処理を行う場合に有用です。

  • 不正なデータイベントの根本原因を見つける
  • データを変更する前に影響分析を行う

Cloud Data Fusion は、データセット レベルとフィールド レベルでリネージを提供し、時間の制約があり、時系列でリネージを表示します。

  • データセット レベルのリネージでは、選択された期間におけるデータセットとパイプラインの関係が表示されます。

  • フィールド レベルのリネージでは、ソース データセット内のフィールド セットに対して実行され、ターゲット データセット内に別のフィールド セットを生成するオペレーションが表示されます。

チュートリアルの事例

このチュートリアルでは、2 つのパイプラインを使用します。

  • Shipment Data Cleansing パイプラインは、小さなサンプル データセットから未加工の配送データを読み取り、変換を適用してデータをクリーンアップします。

  • Delayed Shipments USA パイプラインは、クレンジングされた配送データを読み取り、分析して、しきい値を超えて遅延した米国内の配送を見つけます。

これらのチュートリアル パイプラインは、元データをクリーンアップしてから下流の処理へ送信する一般的なシナリオを示しています。元データから分析出力に対するクリーニングされた配送データまでのデータ証跡は、Cloud Data Fusion のリネージ機能を使用して探索できます。

目標

  • サンプル パイプラインを実行してリネージを生成する
  • データセット レベルとフィールド レベルのリネージを調べる
  • ハンドシェイク情報をアップストリーム パイプラインからダウンストリーム パイプラインに渡す方法を学ぶ

費用

このチュートリアルでは、Google Cloud の課金対象となる以下のコンポーネントを使用します。

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを出すことができます。新しい Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

始める前に

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Cloud プロジェクトに対して課金が有効になっていることを確認します。プロジェクトに対して課金が有効になっていることを確認する方法を学習する

  4. Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery API を有効にします。

    API を有効にする

  5. Cloud Data Fusion インスタンスを作成します
  6. 次のリンクをクリックして、これらの小さなサンプル データセットをローカルマシンにダウンロードします。

Cloud Data Fusion UI を開く

Cloud Data Fusion を使用する際は、Cloud Console と個別の Cloud Data Fusion UI の両方を使用します。Cloud Console では、Cloud Console プロジェクトを作成し、Cloud Data Fusion インスタンスを作成および削除できます。Cloud Data Fusion UI では、さまざまなページ(リネージなど)を使用して、Cloud Data Fusion の機能にアクセスできます。

  1. Cloud Console で [インスタンス] ページを開きます。

    [インスタンス] ページを開く

  2. インスタンスの [操作] 列で、[インスタンスの表示] リンクをクリックします。新しいブラウザタブで Cloud Data Fusion UI が開きます。

  3. 統合パネルまたは左側のナビゲーション パネルから [スタジオ] をクリックして、Cloud Data Fusion の [スタジオ] ページを開きます。

パイプラインをデプロイして実行する

  1. 未加工の配送データをインポートします。[Studio] ページの右上にある [Import] をクリック(または [+] → [Pipeline] → [Import] の順にクリック)してから、始める前にでダウンロードした配送データ クレンジング パイプラインを選択してインポートします。

  2. パイプラインをデプロイします。[スタジオ] ページの右上にある [デプロイ] をクリックします。デプロイ後、[パイプライン] ページが開きます。

  3. パイプラインを実行します。[パイプライン] ページの中央上部にある [実行] をクリックします。

  4. 遅延配送データとパイプラインをインポート、デプロイ、実行します。配送データ クレンジングのステータスが「Succeeded」になった後、始める前にでダウンロードした、米国での遅延配送のデータに上記の手順を適用します。[Studio] ページに戻ってデータをインポートし、つづいて [Pipeline] ページからこの 2 つ目のパイプラインをデプロイして実行します。この 2 つ目のパイプラインが正常に完了すると、以下の手順を続行できます。

データセットを検出する

リネージを調べる前に、データセットを見つける必要があります。Cloud Data Fusion UI の左側のナビゲーション パネルから [メタデータ] を選択して、メタデータの [検索] ページを開きます。配送データ クレンジングのデータセットには、参照データセットとして「Cleaned-Shipments」が指定されているので、検索ボックスに「shipment」と入力します。検索結果にはこのデータセットが含まれます。

タグを使用したデータセットを検出する

メタデータ検索では、Cloud Data Fusion パイプラインによって利用、処理、生成されたデータセットが検出されます。パイプラインは、テクニカル メタデータとオペレーション メタデータを生成して収集する構造化フレームワークで実行されます。テクニカル メタデータには、データセット名、タイプ、スキーマ、フィールド、作成時間、処理情報が含まれます。このテクニカル情報は、Cloud Data Fusion のメタデータ検索とリネージ機能で使用されます。

Cloud Data Fusion は、検索条件として使用できるタグや Key-Value プロパティなどのビジネス メタデータを含むデータセットのアノテーションもサポートしています。たとえば、未加工の配送データセットにビジネスタグ アノテーションを追加して検索するには、次を行います。

  1. 配送データ クレンジング パイプライン ページの 未加工の配送データノードの [プロパティ] ボタンをクリックして [Cloud Storage のプロパティ] ページを開きます。

  2. [メタデータを表示] をクリックして [検索] ページを開きます。

  3. [ビジネスタグ] で [+] をクリックし、タグ名(英数字とアンダースコアも使用可能)を入力して Enter キーを押します。

リネージを調べる

データセット レベルのリネージ

[検索] ページに表示されている [クリーンアップされた配送] のデータセット名をクリックし(データセットの検出から)、[Lineage] タブをクリックします。リネージグラフで、このデータセットが、Raw_Shipping_Data データセットを使用した配送データ クレンジング パイプラインによって生成されたことが示されます。

左右の矢印を使用すると、前後のデータセット リネージ間を移動できます。この例では、グラフに「クリーンアップされた配送」データセットの完全なリネージが表示されます。

フィールド レベルのリネージ

Cloud Data Fusion のフィールド レベルのリネージは、データセットのフィールドと、フィールド セットに実行して別のフィールド セットを生成する変換との間の関係を示します。データセット レベルのリネージと同様に、フィールド レベルのリネージには時間の制約があり、結果を時系列で変化します。

データセット レベルのリネージのステップから続けて、[クリーンアップされた配送] のデータセット レベルのリネージグラフの右上にある [フィールド レベルのリネージ] ボタンをクリックし、フィールド レベルのリネージグラフを表示します。

フィールド レベルのリネージグラフには、フィールド間の関係が表示されます。フィールドを選択して、そのリネージを表示できます。[表示] → [フィールドを固定] を選択して、そのフィールドのリネージのみを表示します。

[表示] → [影響を表示] を選択して、影響を分析します。

原因と影響を示すリンクでは、フィールドの両側で行われた変換が人間が読める台帳形式で表示されます。この情報は、レポートとガバナンスにおいて不可欠であることが考えられます。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

チュートリアルを完了したら、Google Cloud で作成したリソースをクリーンアップし、以後は課金されないようにします。次のセクションで、このようなリソースを削除または無効にする方法を説明します。

チュートリアル データセットを削除する

このチュートリアルでは、プロジェクトに複数のテーブルを含む logistics_demo データセットを作成します。

Cloud Console の BigQuery ウェブ UI からデータセットを削除できます。

Cloud Data Fusion インスタンスを削除する

手順に従って Cloud Data Fusion インスタンスを削除します

プロジェクトの削除

課金をなくす最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。

プロジェクトを削除するには:

  1. Cloud Console で [リソースの管理] ページに移動します。

    [リソースの管理] に移動

  2. プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
  3. ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

次のステップ