クイックスタート: Cloud Data Fusion を使用してデータ パイプラインを作成する

Cloud Data Fusion を使用してデータ パイプラインを作成する

このクイックスタートでは、次の方法について説明します。

  1. Cloud Data Fusion インスタンスを作成します。
  2. Cloud Data Fusion インスタンスで提供されているサンプル パイプラインをデプロイします。このパイプラインは次の処理を行います。
    1. NYT ベストセラー データを含む JSON ファイルを Cloud Storage から読み取る
    2. ファイルに対し変換を実施して、データの解析とクリーニングを行う。
    3. 先週追加された高評価の書籍で $25 未満のものを BigQuery に読み込む。

始める前に

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Cloud Data Fusion API を有効にします。

    API を有効にする

  4. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  5. Cloud Data Fusion API を有効にします。

    API を有効にする

Cloud Data Fusion インスタンスを作成する

  1. [インスタンスを作成] をクリックします。

    [インスタンス] に移動する

  2. [インスタンス名] を入力します。
  3. インスタンスの [説明] を入力します。
  4. インスタンスを作成する [リージョン] を指定します。
  5. 使用する Cloud Data Fusion の [バージョン] を指定します。
  6. 使用する Cloud Data Fusion のエディションを選択します。
  7. Cloud Data Fusion バージョン 6.2.3 以降の場合は、[承認] で、Dataproc の Cloud Data Fusion パイプラインを実行するのに使用する Dataproc サービス アカウントを指定します。デフォルト値の [Compute Engine アカウント] があらかじめ選択されています。
  8. [作成] をクリックします。インスタンスの作成プロセスが完了するまで 30 分ほどかかります。Cloud Data Fusion がインスタンスを作成している間 [インスタンス] ページのインスタンス名の横に進捗状況が表示されます。完了すると緑色のチェックマークに変わり、インスタンスの使用を開始できることが示されます。

Cloud Data Fusion を使用する際は、Cloud Console と個別の Cloud Data Fusion UI の両方を使用します。

  • Cloud Console では、Cloud Console プロジェクトの作成、Cloud Data Fusion インスタンスの作成と削除、Cloud Data Fusion インスタンスの詳細の表示を行うことができます。

  • Cloud Data Fusion ウェブ UI では、Pipeline StudioWrangler などのさまざまなページを使用して Cloud Data Fusion の機能を使用できます。

Cloud Data Fusion UI を操作するには、次の手順に従います。

  1. Cloud Console で [インスタンス] ページを開きます。

    [インスタンス] に移動する

  2. インスタンスの [操作] 列で、[インスタンスの表示] リンクをクリックします。
  3. Cloud Data Fusion ウェブ UI で、左側のナビゲーション パネルを使用して必要なページに移動します。

サンプル パイプラインをデプロイする

サンプル パイプラインは Cloud Data Fusion Hub を使用して入手できます。このサンプル パイプラインにより、再利用可能な Cloud Data Fusion パイプライン、プラグイン、ソリューションを共有できます。

  1. Cloud Data Fusion ウェブ UI で [HUB] をクリックします。
  2. 左側のパネルで [Pipelines] をクリックします。
  3. [Cloud Data Fusion Quickstart] パイプラインをクリックします。
  4. [Create] をクリックします。
  5. Cloud Data Fusion Quickstart 構成パネルで、[Finish] をクリックします。
  6. [Customize Pipeline] をクリックします。 Pipeline Studio に、パイプラインの視覚的な表現が表示されます。パイプライン スタジオは、データ統合パイプラインを開発用のグラフィカル インターフェースです。左側に使用可能なパイプライン プラグインが表示され、メインのキャンバス領域にパイプラインが表示されます。パイプラインの各ノードの上にポインタを重ねて、表示される [Properties] ボタンをクリックすることで、パイプラインを調べられます。各ノードのプロパティ メニューを使用して、そのノードに関連付けられているオブジェクトや操作を表示できます。
  7. 右上のメニューで [Deploy] をクリックします。これにより、パイプラインが Cloud Data Fusion に送信されます。このクイックスタートの次のセクションでパイプラインを実行します。
パイプラインをデプロイします。

パイプラインを表示する

デプロイされたパイプラインがパイプラインの詳細ビューに表示されます。このビューでは、次の操作を行うことができます。

  • パイプラインの構造と構成を表示する。
  • 手動でパイプラインを実行するか、スケジュールやトリガーを設定する。
  • 実行時間、ログ、指標など、パイプラインの実行履歴の概要を表示する
サービス アカウントをコピーします。

パイプラインを実行する

パイプラインの詳細ビューで [Run] をクリックしてパイプラインを実行します。

結果を見る

数分後、パイプラインが完了します。パイプラインのステータスが Succeeded に変わり、各ノードで処理されたレコード数が表示されます。

パイプラインの実行が完了しました。
  1. BigQuery UI に移動します。
  2. プロジェクト内の DataFusionQuickstart データセットで、top_rated_inexpensive テーブルをクリックし、単純なクエリ(例: SELECT * FROM `my-project.GCPQuickStart.top_rated_inexpensive` LIMIT 10、「my-project」を実際のプロジェクト ID で置き換えてください)を実行し、結果のサンプルを表示します。
結果を表示します。

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

  1. このクイックスタートでパイプラインが書き込んだ BigQuery データセットを削除します
  2. Cloud Data Fusion インスタンスを削除します。

  3. (任意)プロジェクトを削除します。

    1. コンソールで [リソースの管理] ページに移動します。

      [リソースの管理] に移動

    2. プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
    3. ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

次のステップ