データ パイプラインの作成

このクイックスタートでは、次の方法について説明します。

  1. Cloud Data Fusion インスタンスを作成します。
  2. Cloud Data Fusion インスタンスで提供されているサンプル パイプラインをデプロイします。このパイプラインは次の処理を行います。
    1. NYT ベストセラー データを含む JSON ファイルを Cloud Storage から読み取る
    2. ファイルに対し変換を実施して、データの解析とクリーニングを行う。
    3. 先週追加された高評価の書籍で $25 未満のものを BigQuery に読み込む。

始める前に

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Cloud Data Fusion API を有効にします。

    API を有効にする

  4. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  5. Cloud Data Fusion API を有効にします。

    API を有効にする

Cloud Data Fusion インスタンスを作成する

  1. [インスタンスを作成] をクリックします。

    [インスタンス] に移動する

  2. [インスタンス名] を入力します。
  3. インスタンスの [説明] を入力します。
  4. インスタンスを作成する [リージョン] を入力します。
  5. 使用する Cloud Data Fusion の [バージョン] を選択します。
  6. Cloud Data Fusion の [エディション] を選択します。
  7. Cloud Data Fusion バージョン 6.2.3 以降の場合は、[承認] フィールドで、Dataproc の Cloud Data Fusion パイプラインを実行するために使用する Dataproc サービス アカウントを選択します。デフォルト値の [Compute Engine アカウント] があらかじめ選択されています。
  8. [作成] をクリックします。インスタンスの作成プロセスが完了するまで 30 分ほどかかります。Cloud Data Fusion がインスタンスを作成している間 [インスタンス] ページのインスタンス名の横に進捗状況が表示されます。完了すると緑色のチェックマークに変わり、インスタンスの使用を開始できることが示されます。

Cloud Data Fusion を使用する際は、Google Cloud コンソールと個別の Cloud Data Fusion ウェブ インターフェース の両方を使用します。

  • Google Cloud Console では、次のことができます。

    • Google Cloud コンソール プロジェクトを作成する
    • Cloud Data Fusion インスタンスの作成と削除
    • Cloud Data Fusion インスタンスの詳細を表示する
  • Cloud Data Fusion ウェブ インターフェースでは、StudioWrangler などのさまざまなページを使用して Cloud Data Fusion の機能を使用できます。

Cloud Data Fusion インターフェースを操作するには、次の手順に従います。

  1. Google Cloud コンソールで [インスタンス] ページを開きます。

    [インスタンス] に移動する

  2. インスタンスの [操作] 列で、[インスタンスの表示] リンクをクリックします。
  3. Cloud Data Fusion ウェブ インターフェースで、左側のナビゲーション パネルを使用して必要なページに移動します。

サンプル パイプラインをデプロイする

サンプル パイプラインは Cloud Data Fusion Hub を使用して入手できます。このサンプル パイプラインにより、再利用可能な Cloud Data Fusion パイプライン、プラグイン、ソリューションを共有できます。

  1. Cloud Data Fusion ウェブ インターフェースで、[Hub] をクリックします。
  2. 左側のパネルで [Pipelines] をクリックします。
  3. [Cloud Data Fusion Quickstart] パイプラインをクリックします。
  4. [作成] をクリックします。
  5. Cloud Data Fusion Quickstart 構成パネルで、[Finish] をクリックします。
  6. [Customize Pipeline] をクリックします。

    パイプラインの視覚的な表現が [Studio] ページに表示されます。これは、データ統合パイプライン開発用のグラフィカル インターフェースです。左側に使用可能なパイプライン プラグインが表示され、メインのキャンバス領域にパイプラインが表示されます。パイプラインの各ノードの上にポインタを重ねて、[プロパティ] をクリックすると、パイプラインを調べられます。各ノードのプロパティ メニューを使用して、そのノードに関連付けられているオブジェクトや操作を表示できます。

  7. 右上のメニューで [Deploy] をクリックします。この手順により、パイプラインが Cloud Data Fusion に送信されます。このクイックスタートの次のセクションでパイプラインを実行します。

パイプラインをデプロイする

パイプラインを表示する

デプロイされたパイプラインがパイプラインの詳細ビューに表示されます。このビューでは、次の操作を行うことができます。

  • パイプラインの構造と構成を表示する。
  • 手動でパイプラインを実行するか、スケジュールやトリガーを設定する。
  • 実行時間、ログ、指標など、パイプラインの実行履歴の概要を表示する

サービス アカウントをコピーする

パイプラインを実行する

パイプラインの詳細ビューで [Run] をクリックしてパイプラインを実行します。

パイプラインを実行する

パイプラインを実行すると、Cloud Data Fusion は次の処理を行います。

  1. エフェメラル Dataproc クラスタをプロビジョニングします
  2. Apache Spark を使用してクラスタ上でパイプラインを実行します
  3. クラスタを削除します。

結果を見る

数分後、パイプラインが完了します。パイプラインのステータスが Succeeded に変わり、各ノードで処理されたレコード数が表示されます。

パイプラインの実行が完了

  1. BigQuery ウェブ インターフェースに移動します。
  2. 結果のサンプルを表示するには、プロジェクトの DataFusionQuickstart データセットに移動して top_rated_inexpensive テーブルをクリックし、単純なクエリを実行します。次に例を示します。

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    PROJECT_ID は、実際のプロジェクト ID に置き換えます。

結果を表示する

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

  1. このクイックスタートでパイプラインが書き込んだ BigQuery データセットを削除します。
  2. Cloud Data Fusion インスタンスを削除します。

  3. 省略可: プロジェクトを削除します。

  1. Google Cloud コンソールで、[リソースの管理] ページに移動します。

    [リソースの管理] に移動

  2. プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
  3. ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

次のステップ