クラスタのメタデータ

Dataproc は、クラスタ内で実行されるインスタンスに対して次のような特別なメタデータ値を設定します。

メタデータのキー
dataproc-bucketクラスタのステージング バケットの名前
dataproc-regionクラスタのエンドポイントのリージョン
dataproc-worker-countクラスタ内のワーカーノードの数。単一ノードクラスタの場合、値は 0 です。
dataproc-cluster-nameクラスタの名前
dataproc-cluster-uuidクラスタの UUID
dataproc-roleインスタンスの役割(Master または Worker
dataproc-master最初のマスターノードのホスト名。標準ノードクラスタまたは単一ノードクラスタの場合、値は [CLUSTER_NAME]-m です。高可用性クラスタの場合は [CLUSTER_NAME]-m-0 です。ここで、[CLUSTER_NAME] はクラスタの名前です。
dataproc-master-additional高可用性クラスタ内にある追加のマスターノードのホスト名のカンマ区切りリスト。たとえば、クラスタにマスターノードが 3 つある場合は [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2となります。
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URLSpark アプリケーションで使用する Spark BigQuery コネクタのバージョンまたは URL(0.42.1gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar など)。デフォルトの Spark BigQuery コネクタ バージョンは、Dataproc 2.1 以降のイメージ バージョン クラスタにプリインストールされています。詳細については、Spark BigQuery コネクタを使用するをご覧ください。

これらの値を使用して、初期化アクションの動作をカスタマイズできます。

gcloud dataproc clusters create コマンドで --metadata フラグを使用して、独自のメタデータを指定できます。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...