Cloud Storage Text to BigQuery (Stream) with Python UDF テンプレート

Cloud Storage Text to BigQuery パイプラインは、Cloud Storage に格納されているテキストファイルをストリーミングして、指定された Python ユーザー定義関数（UDF）を使用して変換し、結果を BigQuery に追加するストリーミングパイプラインです。

パイプラインは無期限に実行され、ドレインではなくキャンセルによって手動で終了させる必要があります。これは、分割可能な DoFn で、ドレインをサポートしていない Watch 変換を使用しているためです。

パイプラインの要件

BigQuery で出力テーブルのスキーマを記述する JSON ファイルを作成します。
fields というタイトルになっているトップレベルの JSON 配列があり、その内容が {"name": "COLUMN_NAME", "type": "DATA_TYPE"} のパターンに従っていることを確認します。次に例を示します。
```
{
  "fields": [
    {
      "name": "name",
      "type": "STRING"
    },
    {
      "name": "age",
      "type": "INTEGER"
    }
  ]
}
```
Python（.py）ファイルを作成し、このファイルに、テキスト行の変換ロジックを提供する UDF 関数を記述します。この関数は JSON 文字列を返します。
次の例では、CSV ファイルの各行を分割し、値を含む JSON オブジェクトを作成して、JSON 文字列を返します。
```
import json
def process(value):
  data = value.split(',')
  obj = { 'name': data[0], 'age': int(data[1]) }
  return json.dumps(obj)
```

テンプレートのパラメータ

パラメータ	説明
`pythonExternalTextTransformGcsPath`	使用するユーザー定義関数（UDF）を定義する Python コードファイルの Cloud Storage URI。例: `gs://my-bucket/my-udfs/my_file.py`。
`pythonExternalTextTransformFunctionName`	使用する Python ユーザー定義関数（UDF）の名前。
`JSONPath`	BigQuery スキーマファイルの Cloud Storage の場所。JSON 形式で記述します。例: `gs://path/to/my/schema.json`。
`outputTable`	完全修飾された BigQuery テーブル。例: `my-project:dataset.table`
`inputFilePattern`	処理するテキストの Cloud Storage の場所。例: `gs://my-bucket/my-files/text.txt`。
`bigQueryLoadingTemporaryDirectory`	BigQuery 読み込みプロセスで使用する一時ディレクトリ。例: `gs://my-bucket/my-files/temp_dir`
`outputDeadletterTable`	出力テーブルに到達できなかったメッセージが記載されたテーブル。例: `my-project:dataset.my-unprocessed-table`存在しない場合は、パイプラインの実行中に作成されます。指定しない場合は、`<outputTableSpec>_error_records` が代わりに使用されます。

ユーザー定義関数

このテンプレートには、パイプライン要件で説明されているように、入力ファイルを解析する UDF が必要です。このテンプレートでは、各入力ファイルのテキストごとに UDF を呼び出します。UDF の作成の詳細については、Dataflow テンプレートのユーザー定義関数を作成するをご覧ください。

関数の仕様

UDF の仕様は次のとおりです。

入力: 入力ファイルの 1 行のテキスト。
出力: BigQuery 宛先テーブルのスキーマに一致する JSON 文字列。

テンプレートを実行する

コンソール

Dataflow の [テンプレートからジョブを作成] ページに移動します。

[テンプレートからジョブを作成] に移動

[ジョブ名] フィールドに、固有のジョブ名を入力します。
（省略可）[リージョンエンドポイント] で、プルダウンメニューから値を選択します。デフォルトのリージョンは us-central1 です。
Dataflow ジョブを実行できるリージョンのリストについては、Dataflow のロケーションをご覧ください。
[Dataflow テンプレート] プルダウンメニューから、[ the Cloud Storage Text to BigQuery (Stream) with Python UDF template] を選択します。
表示されたパラメータフィールドに、パラメータ値を入力します。
[ジョブを実行] をクリックします。

gcloud

シェルまたはターミナルで、テンプレートを実行します。

gcloud dataflow flex-template run JOB_NAME \
    --template-file-gcs-location gs://dataflow-templates-REGION_NAME/VERSION/flex/Stream_GCS_Text_to_BigQuery_Xlang \
    --region REGION_NAME \
    --staging-location STAGING_LOCATION \
    --parameters \
pythonExternalTextTransformGcsPath=PATH_TO_PYTHON_UDF_FILE,\
pythonExternalTextTransformFunctionName=PYTHON_FUNCTION,\
JSONPath=PATH_TO_BIGQUERY_SCHEMA_JSON,\
inputFilePattern=PATH_TO_TEXT_DATA,\
outputTable=BIGQUERY_TABLE,\
outputDeadletterTable=BIGQUERY_UNPROCESSED_TABLE,\
bigQueryLoadingTemporaryDirectory=PATH_TO_TEMP_DIR_ON_GCS

次のように置き換えます。

JOB_NAME: 一意の任意のジョブ名
REGION_NAME: Dataflow ジョブをデプロイするリージョン（例: us-central1）
VERSION: 使用するテンプレートのバージョン
使用できる値は次のとおりです。
- latest: 最新バージョンのテンプレートを使用します。このテンプレートは、バケット内で日付のない親フォルダ（gs://dataflow-templates-REGION_NAME/latest/）にあります。
- バージョン名（例: 2023-09-12-00_RC00）。特定のバージョンのテンプレートを使用します。このテンプレートは、バケット内で対応する日付の親フォルダ（gs://dataflow-templates-REGION_NAME/）にあります。
注: 最新のテンプレートでは、互換性のない変更が行われている場合があります。こうした互換性のない変更が本番環境のワークフローに影響しないように、本番環境では最新の日付付き親フォルダに保存されているテンプレートを使用する必要があります。
STAGING_LOCATION: ローカルファイルをステージングする場所（例: gs://your-bucket/staging）
PYTHON_FUNCTION: 使用する Python ユーザー定義関数（UDF）の名前。
PATH_TO_BIGQUERY_SCHEMA_JSON: スキーマ定義を含む JSON ファイルへの Cloud Storage パス
PATH_TO_PYTHON_UDF_FILE: 使用するユーザー定義関数（UDF）を定義する Python コードファイルの Cloud Storage URI。例: gs://my-bucket/my-udfs/my_file.py。
PATH_TO_TEXT_DATA: テキストデータセットの Cloud Storage パス
BIGQUERY_TABLE: BigQuery テーブル名
BIGQUERY_UNPROCESSED_TABLE: 未処理のメッセージ用の BigQuery テーブルの名前
PATH_TO_TEMP_DIR_ON_GCS: 一時ディレクトリへの Cloud Storage パス

API

REST API を使用してテンプレートを実行するには、HTTP POST リクエストを送信します。API とその認証スコープの詳細については、projects.templates.launch をご覧ください。

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
{
   "launch_parameter": {
      "jobName": "JOB_NAME",
      "parameters": {
       "pythonExternalTextTransformFunctionName": "PYTHON_FUNCTION",
       "JSONPath": "PATH_TO_BIGQUERY_SCHEMA_JSON",
       "pythonExternalTextTransformGcsPath": "PATH_TO_PYTHON_UDF_FILE",
       "inputFilePattern":"PATH_TO_TEXT_DATA",
       "outputTable":"BIGQUERY_TABLE",
       "outputDeadletterTable":"BIGQUERY_UNPROCESSED_TABLE",
       "bigQueryLoadingTemporaryDirectory": "PATH_TO_TEMP_DIR_ON_GCS"
      },
      "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/Stream_GCS_Text_to_BigQuery_Xlang",
   }
}