クラスタのメタデータ

Dataproc は、クラスタ内で実行されるインスタンスに対して次のような特別なメタデータ値を設定します。

メタデータのキー	値
`dataproc-bucket`	クラスタのステージングバケットの名前
`dataproc-region`	クラスタのエンドポイントのリージョン
`dataproc-worker-count`	クラスタ内のワーカーノードの数。単一ノードクラスタの場合、値は `0` です。
`dataproc-cluster-name`	クラスタの名前
`dataproc-cluster-uuid`	クラスタの UUID
`dataproc-role`	インスタンスの役割（`Master` または `Worker`）
`dataproc-master`	最初のマスターノードのホスト名。標準ノードクラスタまたは単一ノードクラスタの場合、値は `[CLUSTER_NAME]-m` です。高可用性クラスタの場合は `[CLUSTER_NAME]-m-0` です。ここで、`[CLUSTER_NAME]` はクラスタの名前です。
`dataproc-master-additional`	高可用性クラスタ内にある追加のマスターノードのホスト名のカンマ区切りリスト。たとえば、クラスタにマスターノードが 3 つある場合は `[CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2`となります。
`SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL`	Spark アプリケーションで使用する Spark BigQuery コネクタのバージョンまたは URL（`0.42.1` や `gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar` など）。デフォルトの Spark BigQuery コネクタバージョンは、Dataproc `2.1` 以降のイメージバージョンクラスタにプリインストールされています。詳細については、Spark BigQuery コネクタを使用するをご覧ください。

これらの値を使用して、初期化アクションの動作をカスタマイズできます。

gcloud dataproc clusters create コマンドで --metadata フラグを使用して、独自のメタデータを指定できます。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --metadata=name1=value1,name2=value2... \
    ... other flags ...

クラスタのメタデータ コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

クラスタのメタデータ