Cloud Storage Avro to Spanner テンプレート

Cloud Storage Avro files to Cloud Spanner テンプレートは、Cloud Storage に保存されている Spanner からエクスポートされた Avro ファイルを読み取り、それらのファイルを Spanner データベースにインポートするバッチパイプラインです。

パイプラインの要件

ターゲットの Spanner データベースが存在し、空であることが必要です。
Cloud Storage バケットの読み取り権限と、対象の Spanner データベースに対する書き込み権限が必要です。
入力された Cloud Storage パスが存在する必要があります。また、インポートするファイルの JSON 記述を含む spanner-export.json ファイルがそこに格納されている必要があります。
ソースの Avro ファイルに主キーがない場合は、テンプレートを実行する前に、主キーのある空の Spanner テーブルを作成する必要があります。Avro ファイルで主キーを定義している場合、この手順は必要ありません。

テンプレートのパラメータ

必須パラメータ

instanceId: Spanner データベースのインスタンス ID。
databaseId: Spanner データベースのデータベース ID。
inputDir: Avro ファイルのインポート元となる Cloud Storage のパス。

オプションパラメータ

spannerHost: テンプレート内で呼び出す Cloud Spanner のエンドポイント。テストでのみ使われます例: https://batch-spanner.googleapis.comデフォルトは https://batch-spanner.googleapis.com です。
waitForIndexes: true の場合、パイプラインはインデックスが作成されるまで待機します。false の場合、インデックスがバックグラウンドで作成されている間に、ジョブが完了する可能性があります。デフォルト値は false です。
waitForForeignKeys: true の場合、パイプラインは外部キーが作成されるまで待機します。false の場合、外部キーがバックグラウンドで作成されている間に、ジョブが完了する可能性があります。デフォルト値は false です。
waitForChangeStreams: true の場合、パイプラインは変更ストリームが作成されるまで待機します。false の場合、変更ストリームがバックグラウンドで作成されている間に、ジョブが完了する可能性があります。デフォルト値は true です。
waitForSequences: デフォルトでは、シーケンスの作成時にインポートパイプラインはブロックされます。false の場合、バックグラウンドでシーケンスを作成していても、インポートパイプラインが完了することがあります。
earlyIndexCreateFlag: インデックスの早期作成を有効にするかどうかを指定します。テンプレートで多くの DDL ステートメントを実行している場合は、データを読み込む前にインデックスを作成するほうが効率的です。デフォルトの動作では、DDL ステートメントの数がしきい値を超えたときに、インデックスが先に作成されます。この機能を無効にするには、earlyIndexCreateFlag を false に設定します。デフォルト値は true です。
spannerProjectId: Spanner データベースを含む Google Cloud プロジェクトの ID。設定されていない場合は、デフォルトの Google Cloud プロジェクトが使用されます。
ddlCreationTimeoutInMinutes: テンプレートによって実行される DDL ステートメントのタイムアウト（分単位）。デフォルト値は 30 分です。
spannerPriority: Spanner 呼び出しのリクエストの優先度。有効な値は HIGH、MEDIUM、LOW です。デフォルト値は MEDIUM です。

テンプレートを実行する

コンソール

Dataflow の [テンプレートからジョブを作成] ページに移動します。

[テンプレートからジョブを作成] に移動

[ジョブ名] フィールドに、固有のジョブ名を入力します。
Google Cloud コンソールの Spanner インスタンスページにジョブを表示するには、ジョブ名が次の形式になっている必要があります。
```
cloud-spanner-import-SPANNER_INSTANCE_ID-SPANNER_DATABASE_NAME
```
次のように置き換えます。
- SPANNER_INSTANCE_ID: Spanner インスタンスの ID
- SPANNER_DATABASE_NAME: Spanner データベースの名前
（省略可）[リージョンエンドポイント] で、プルダウンメニューから値を選択します。デフォルトのリージョンは us-central1 です。
Dataflow ジョブを実行できるリージョンのリストについては、Dataflow のロケーションをご覧ください。
[Dataflow テンプレート] プルダウンメニューから、[ the Avro Files on Cloud Storage to Cloud Spanner template] を選択します。
表示されたパラメータフィールドに、パラメータ値を入力します。
[ジョブを実行] をクリックします。

gcloud

シェルまたはターミナルで、テンプレートを実行します。

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/GCS_Avro_to_Cloud_Spanner \
    --region REGION_NAME \
    --staging-location GCS_STAGING_LOCATION \
    --parameters \
instanceId=INSTANCE_ID,\
databaseId=DATABASE_ID,\
inputDir=GCS_DIRECTORY

次のように置き換えます。

JOB_NAME: 一意の任意のジョブ名
VERSION: 使用するテンプレートのバージョン
使用できる値は次のとおりです。
- latest: 最新バージョンのテンプレートを使用します。このテンプレートは、バケット内で日付のない親フォルダ（gs://dataflow-templates-REGION_NAME/latest/）にあります。
- バージョン名（例: 2023-09-12-00_RC00）。特定のバージョンのテンプレートを使用します。このテンプレートは、バケット内で対応する日付の親フォルダ（gs://dataflow-templates-REGION_NAME/）にあります。
注: 最新のテンプレートでは、互換性のない変更が行われている場合があります。こうした互換性のない変更が本番環境のワークフローに影響しないように、本番環境では最新の日付付き親フォルダに保存されているテンプレートを使用する必要があります。
REGION_NAME: Dataflow ジョブをデプロイするリージョン（例: us-central1）
INSTANCE_ID: データベースを含む Spanner インスタンスの ID
DATABASE_ID: インポート先の Spanner データベースの ID
GCS_DIRECTORY: Avro ファイルのインポート元となる Cloud Storage パス。例: gs://mybucket/somefolder

API

REST API を使用してテンプレートを実行するには、HTTP POST リクエストを送信します。API とその認証スコープの詳細については、projects.templates.launch をご覧ください。

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/GCS_Avro_to_Cloud_Spanner
{
   "jobName": "JOB_NAME",
   "parameters": {
       "instanceId": "INSTANCE_ID",
       "databaseId": "DATABASE_ID",
       "inputDir": "gs://GCS_DIRECTORY"
   },
   "environment": {
       "machineType": "n1-standard-2"
   }
}