ターゲットキャンペーンパイプラインを作成する

Cloud Data Fusion を使用して、ターゲットキャンペーンの候補を選択するために顧客データをクリーニング、変換、処理する方法について説明します。

このタスクの手順をガイドに沿って Google Cloud コンソールで直接行う場合は、「ガイドを表示」をクリックしてください。

ガイドを表示

シナリオ

展開中のキャンペーンのプロモーション用のカスタムマーケティング資料を作成し、その資料を顧客の自宅の郵便受けに直接配達してもらいます。

キャンペーンには次の 2 つの制約があります。

所在地: カリフォルニア、ワシントン、オレゴンのお客様だけに配達する。
費用: 燃料を節約するために、家まですぐに行き着ける顧客に配達します。配達先は住所に avenue がある顧客に限定します。

このチュートリアルでは、キャンペーン用に顧客住所のリストを生成する方法を説明します。このチュートリアルでは、次のことを行います。

顧客データをクリーニングする: カリフォルニア、ワシントン、オレゴンの住所に avenue がある顧客をフィルタします。
次の処理を行うパイプラインを作成します。
- フィルタした顧客データを、州の略称を含む公開データセットと結合します。
- クリーニングと結合を行ったデータを BigQuery テーブルに格納し、BigQuery ウェブインターフェースを使用したクエリの実行や Looker Studio を使用した分析を実行します。

目標

Cloud Data Fusion を 2 つのデータソースに接続する
基本的な変換を適用する
2 つのデータソースを結合する
出力データをシンクに書き込む

準備

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
Enable the APIs

Cloud Data Fusion インスタンスを作成します。
このチュートリアルは、デフォルトの Compute Engine サービスアカウントを使用していることを前提としています。

権限を管理

必要なカスタムロールと権限を作成して割り当てます。

カスタムロールを作成して権限を追加する

Google Cloud コンソールの [ロール] ページに移動します。

[ロール] ページに移動
[ ロールを作成] をクリックします。
[Title] 項目に「Custom Role-Tutorial」と入力します。
[ 権限を追加] をクリックします。
[権限を追加] ウィンドウで次の権限を選択し、[追加] をクリックします。
- bigquery.datasets.create
- bigquery.jobs.create
- storage.buckets.create
[作成] をクリックします。

デフォルトの Compute Engine サービスアカウントにカスタムロールを割り当てる

Cloud Data Fusion の [Instances] ページに移動します。
インスタンスを作成する
インスタンスの名前をクリックします。
デフォルトの Dataproc サービスアカウントをメモします。この情報はインスタンスの詳細ページに含まれます。

Dataproc サービスアカウント名の形式は次のとおりです。

CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com

Dataproc サービスアカウントの詳細を確認してください。
[IAM] ページに移動します。

[ロール] ページに移動
[フィルタ] バーに、デフォルトの Dataproc サービスアカウントの名前を入力します。
デフォルトの Compute Engine サービスアカウントで、[ 編集] をクリックします。
[ 別のロールを追加] をクリックします。
[ロールを選択] フィールドで、[カスタムロールチュートリアル] を選択します。
[保存] をクリックします。
サービスアカウントに Cloud Data Fusion 実行者のロールがすでに割り当てられていることを確認します。

顧客データを準備する

このチュートリアルでは、次の 2 つの入力データセットが必要です。どちらも Cloud Data Fusion インスタンスで提供されています。

顧客データのサンプル: customers.csv という名前の CSV ファイル。
州の略称: state_abbreviations という名前の BigQuery テーブル。

顧客データを読み込む

Cloud Data Fusion の [Instances] ページに移動します。
[インスタンス] に移動
使用している Cloud Data Fusion インスタンスで、[View instance] をクリックします。Cloud Data Fusion のウェブインターフェースが新しいタブで開きます。
[Wrangler] をクリックします。[Wrangler] ページが開きます。
[Connections] ペインで、[GCS] > [Sample Buckets] に移動します。
[campaign-tutorial] をクリックします。
customers.csv をクリックします。
[Parsing options] ウィンドウで、次のように指定します。
- Format: csv
- 引用符付きの値を有効にする: False
- 引用符付きの値を有効にする: False
- ファイルエンコード: UTF-8
[Confirm] をクリックすると、顧客データが Wrangler の新しいタブに読み込まれます。

顧客データをクリーニングする

これには 2 つのサブタスクが含まれます。

スキーマを設定する
目的のターゲットオーディエンスのみを表示するように顧客データをフィルタする

スキーマを設定する

適切な名前をテーブルの列に割り当てて、データのスキーマを設定します。body_1 や body_2 などの列にわかりやすい名前を付ける手順は次のとおりです。

右ペインで [Columns] タブをクリックします。
[Column names] プルダウンをクリックし、[Set all] を選択します。
[Bulk set column] ダイアログボックスに、カンマ区切りの次の列名を入力します。
```
Name,StreetAddress,City,State,Country
```
[適用] をクリックします。

データをフィルタリングする

カリフォルニア、オレゴン、ワシントンに住んでいる顧客のみを表示するようにデータをフィルタリングします。

これらの州以外の値を含むすべての行を削除します。

State 列のプルダウンをクリックして、[Filter] を選択します。
フィルタウィンドウで次の操作を行います。
1. [Keep row] をクリックします。
2. [If] プルダウンをクリックして、[value matching regex] を選択します。
3. 次の正規表現を入力します。
```
^(California|Oregon|Washington)$
```
4. [適用] をクリックします。
[State] 列の値は、California、Oregon、Washington です。

データをフィルタリングして、住所に avenue を含む顧客のみを表示します。文字列 Avenue を含む住所のみを保持します。

StreetAddress 列のプルダウンをクリックして、[StreetAddress] を選択します。
フィルタウィンドウで次の操作を行います。
1. [Keep row] をクリックします。
2. If プルダウンから [value contains] を選択し、「Avenue」と入力します。
3. [Ignore case] を選択します。
4. [適用] をクリックします。

データセット全体に対して並列処理ジョブを実行する前、Wrangler にはデータセットの最初の 1000 個の値しか表示されません。一部のデータをフィルタリングしたため、Wrangler の表示に残った顧客はほんの一部です。

バッチパイプラインを作成する

ここまで、データのクリーニングとデータの一部の変換を実行しました。これで、データセット全体に対して変換を実行する、バッチパイプラインを作成できます。

Cloud Data Fusion は、スタジオで構築したパイプラインを Apache Spark プログラムに変換します。プログラムは、エフェメラル Dataproc クラスタで変換を並列に実行します。このプロセスにより、インフラストラクチャを処理することなく、スケーラブルかつ信頼性の高い方法で、膨大な量のデータに対して複雑な変換を簡単に行うことができます。

[Wrangler] ページで [Create a pipeline] をクリックします。
[Batch pipeline] を選択します。[Studio] ページが開きます。
Studio のページで、GCSFile ソースノードが GCSFile ノードに接続されています。

Wrangler ページで適用した変換は、Studio ページの [Wrangler] ノードに表示されます。
適用した変換を表示するには、Wrangler ノードの上にポインタを置いて [Properties] をクリックします。

適用した変換が [Directives] に表示されます。
[検証] をクリックします。
[ 閉じる] をクリックします。

[Wrangle] をクリックすると、[Wrangler] ページに戻り、さらに変換を適用できます。追加した変換が [Studio] ページに表示されます。

たとえば、Country 列は、値が常に USA であるため不要です。この列を削除する手順は次のとおりです。

[Wrangle] をクリックします。
Country の横にある下向き矢印をクリックし、[Delete Column] を選択します。
[適用] をクリックします。[Wrangler] ページが閉じ、[Studio] ページで [Wrangler Properties] ウィンドウが開きます。[Directives] に「drop Country」が表示されます。
[閉じる] をクリックします。

州名を略称にする

配達用車両のナビゲーションシステムは、州名の略称（カリフォルニア州ではなく CA）を含む住所のみを認識します。そして、顧客データには完全な州名が含まれています。

公開されている BigQuery state_abbreviations テーブルには 2 つの列があり、1 つは完全な州名、もう 1 つは州名の略称です。このテーブルを使用して、顧客データの州名を更新できます。

BigQuery の州名データを表示する

別のタブで BigQuery Studio ページに移動します。

[BigQuery] に移動
[Create SQL query] をクリックして、クエリエディタに次のクエリを入力します。
```
SELECT * FROM `dis-user-guide.campaign_tutorial.state_abbreviations`
```
[実行] をクリックします。

BigQuery に州名と略称のリストが表示されます。

BigQuery テーブルにアクセスする

BigQuery state_abbreviations テーブルにアクセスするソースをパイプラインに追加します。

Cloud Data Fusion Studio のページに移動し、[Source] メニューを開きます。
[BigQuery] をクリックします。

BigQuery ソースノードが他の 2 つのノードとともにキャンバスに表示されます。
ポインタを BigQuery ソースノードの上に置き、[Properties] をクリックします。
1. [データセット ID] フィールドに「dis-user-guide」と入力します。
2. [Reference Name] フィールドに「state_abbreviations」と入力します。
3. [Dataset] フィールドに「campaign_tutorial」と入力します。
4. [Table] フィールドに「state_abbreviations」と入力します。
[Get Schema] をクリックして、BigQuery からテーブルのスキーマを読み込みます。
[閉じる] をクリックします。

2 つのデータソースを結合する

州名の略称を持つ顧客データを含む出力を生成するには、顧客データと州の略称の 2 つのデータソースを結合します。

Cloud Data Fusion Studio のページに移動し、[分析] メニューを開きます。
[Joiner] をクリックします。

SQL Join に似たアクションを表す Joiner ノードがキャンバスに表示されます。
ソースノードの右端にある接続矢印を宛先ノードにドラッグ＆ドロップして、Wrangler ノードと BigQuery ノードを Joiner ノードに接続します。
ポインタを Joiner ノードの上に置き、[Properties] をクリックします。
1. [Fields] セクションで [Wrangler] と [BigQuery] を開きます。
  1. Wrangler の [state] チェックボックスをオフにします。
  2. 州名は略称のみ必要で完全な州名は不要なため、BigQuery の [name] チェックボックスをオフにします。
  3. BigQuery の [abbreviation] のチェックボックスをオンのままにして、エイリアスを State に変更します。
2. [Join Type] フィールドの値は [Outer] のままにします。[Required inputs] で、[Wrangler] チェックボックスをオンにします。
3. [Join condition] セクションで、Wrangler に対して [State] を選択します。BigQuery の場合は、[名前] を選択します。
4. 設定した結合によって得られるスキーマを生成します。[Get Schema] をクリックします。
5. [検証] をクリックします。
6. [閉じる] をクリックします。

BigQuery に出力を保存する

パイプラインの結果を BigQuery テーブルに格納します。データを格納する場所をシンクといいます。

Cloud Data Fusion Studio ページに移動し、[Sink] を開きます。
[BigQuery] をクリックします。
Joiner ノードを BigQuery ノードに接続します。
ポインタを BigQuery ノードの上に置き、[Properties] をクリックします。
1. [Dataset] フィールドに「dis_user_guide」と入力します。
2. [Table] フィールドで customer_data_abbreviated_states を選択します。
3. [閉じる] をクリックします。

パイプラインをデプロイして実行する

Studio ページで、[Name your pipeline] をクリックし、「CampaignPipeline」と入力します。
[保存] をクリックします。
右上隅の [Deploy] をクリックします。
デプロイが完了したら、[Run] をクリックします。

パイプラインの実行には数分を要する場合があります。待機している間、パイプラインのステータスが [Provisioning] > [Starting] > [Running] > [Deprovisioning] > [Succeeded] に変わるのを確認できます。

結果を見る

Google Cloud コンソールで [BigQuery] ページに移動します。

BigQuery に移動
[Create SQL query] をクリックします。
customer_data_abbreviated_states テーブルに対してクエリを実行します。
```
SELECT * FROM dis_user_guide.customer_data_abbreviated_states LIMIT 1000
```
注: さらに分析するには、このテーブルを Looker Studio に接続できます。

これで、データパイプラインが正常に作成されました。

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の操作を行います。

BigQuery データセットを削除する

このチュートリアルで作成した BigQuery データセットを削除するには、次のようにします。

Google Cloud コンソールで [BigQuery] ページに移動します。
BigQuery に移動
dis_user_guide データセットを選択します。
[Delete dataset] をクリックします。

Cloud Data Fusion インスタンスを削除する

手順に従って Cloud Data Fusion インスタンスを削除します。

プロジェクトの削除

課金をなくす最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。

プロジェクトを削除するには:

注意: プロジェクトを削除すると、次のような影響があります。

プロジェクト内のすべてのものが削除されます。このドキュメントのタスクで既存のプロジェクトを使用した場合、それを削除すると、そのプロジェクトで行った他の作業もすべて削除されます。
カスタムプロジェクト ID が失われます。このプロジェクトを作成したときに、将来使用するカスタムプロジェクト ID を作成した可能性があります。そのプロジェクト ID を使用した URL（たとえば、appspot.com）を保持するには、プロジェクト全体ではなくプロジェクト内の選択したリソースだけを削除します。

複数のアーキテクチャ、チュートリアル、クイックスタートを実施する予定がある場合は、プロジェクトを再利用すると、プロジェクトの割り当て上限を超えないようにすることができます。

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

次のステップ

Cloud Data Fusion について学ぶ。

ターゲット キャンペーン パイプラインを作成する

シナリオ

目標

準備

権限を管理

カスタムロールを作成して権限を追加する

デフォルトの Compute Engine サービス アカウントにカスタムロールを割り当てる

顧客データを準備する

顧客データを読み込む

顧客データをクリーニングする

スキーマを設定する

データをフィルタリングする

バッチ パイプラインを作成する

州名を略称にする

BigQuery の州名データを表示する

BigQuery テーブルにアクセスする

2 つのデータソースを結合する

BigQuery に出力を保存する

パイプラインをデプロイして実行する

結果を見る

クリーンアップ

BigQuery データセットを削除する

Cloud Data Fusion インスタンスを削除する

プロジェクトの削除

次のステップ

ターゲットキャンペーンパイプラインを作成する

デフォルトの Compute Engine サービスアカウントにカスタムロールを割り当てる

バッチパイプラインを作成する