Google 提供のテンプレートを使ってみる

Google はオープンソースの Cloud Dataflow テンプレートをいくつか提供しています。テンプレートに関する一般的な情報については、概要ページをご覧ください。初めて使用する方は、後述の WordCount テンプレートを使用してください。他の Google 提供のテンプレートをご覧ください。

ストリーミング テンプレート - データを継続的に処理するためのテンプレート

バッチ テンプレート - データを一括で処理するためのテンプレート

ユーティリティ テンプレート:

WordCount

WordCount テンプレートは、Cloud Storage からテキストを読み取り、テキスト行を個別の単語にトークン化して各単語の出現頻度をカウントするバッチ パイプラインです。WordCount の詳細については、サンプルの WordCount パイプラインをご覧ください。

テンプレートのパラメータ

パラメータ 説明
inputFile Cloud Storage 入力ファイルのパス。
output Cloud Storage 出力ファイルのパスと接頭辞。

WordCount テンプレートの実行

Console

Google Cloud Platform Console から実行する
  1. GCP Console の Cloud Dataflow ページに移動します。
  2. Cloud Dataflow ページに移動
  3. [テンプレートからジョブを作成] をクリックします。
  4. Cloud Platform Console の [テンプレートからジョブを作成] ボタン
  5. [Cloud Dataflow テンプレート] プルダウン メニューから WordCount テンプレート を選択します。
  6. [ジョブ名] フィールドにジョブ名を入力します。 有効なジョブ名にするには、正規表現 [a-z]([-a-z0-9]{0,38}[a-z0-9])? と一致させる必要があります。
  7. 表示されるパラメータ フィールドにパラメータ値を入力します。
  8. [ジョブを実行] をクリックします。

GCLOUD

gcloud コマンドライン ツールから実行する

注: gcloud コマンドライン ツールを使用してテンプレートを実行するには、Cloud SDK バージョン 138.0.0 以降が必要です。

このテンプレートの実行時は、テンプレートへの次のような Cloud Storage パスが必要です。

gs://dataflow-templates/latest/Word_Count

このサンプルの次の値は置き換える必要があります。

  • YOUR_PROJECT_ID は、実際のプロジェクト ID に置き換えます。
  • JOB_NAME は、任意のジョブ名に置き換えます。ジョブ名を有効にするには、正規表現 [a-z]([-a-z0-9]{0,38}[a-z0-9])? と一致させる必要があります。
  • YOUR_BUCKET_NAME は、使用する Cloud Storage バケットの名前に置き換えます。
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
output=gs://YOUR_BUCKET_NAME/output/my_output

API

REST API から実行する

このテンプレートの実行時は、テンプレートへの次のような Cloud Storage パスが必要です。

gs://dataflow-templates/latest/Word_Count

REST API リクエストでこのテンプレートを実行するには、プロジェクト ID を指定して HTTP POST リクエストを送信します。このリクエストには承認が必要です。

このサンプルの次の値は置き換える必要があります。

  • YOUR_PROJECT_ID は、実際のプロジェクト ID に置き換えます。
  • JOB_NAME は、任意のジョブ名に置き換えます。ジョブ名を有効にするには、正規表現 [a-z]([-a-z0-9]{0,38}[a-z0-9])? と一致させる必要があります。
  • YOUR_BUCKET_NAME は、使用する Cloud Storage バケットの名前に置き換えます。
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://YOUR_BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}
このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。