Dataproc 会为集群中运行的实例设置特殊元数据值:
元数据键 | 值 |
---|---|
dataproc-bucket | 集群的暂存存储分区的名称 |
dataproc-region | 集群端点所在的区域 |
dataproc-worker-count | 集群中的工作器节点数。对于单节点集群,值为 0 。 |
dataproc-cluster-name | 集群的名称 |
dataproc-cluster-uuid | 集群的 UUID |
dataproc-role | 实例的角色(Master 或 Worker ) |
dataproc-master | 第一个主节点的主机名。该值为 [CLUSTER_NAME]-m (在标准或单个节点集群中)或 [CLUSTER_NAME]-m-0 (在高可用性集群中),其中 [CLUSTER_NAME] 是您的集群名称。 |
dataproc-master-additional | 高可用性集群中其他主节点的主机名列表(用英文逗号分隔),例如具有 3 个主节点的集群中的 [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2 。 |
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL | 指向 Spark 应用中要使用的 Spark BigQuery 连接器版本的版本或网址,例如 0.42.1 或 gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar 。默认的 Spark BigQuery 连接器版本已预安装在 Dataproc 2.1 及更高版本的映像版本集群中。如需了解详情,请参阅使用 Spark BigQuery 连接器。 |
您可以使用这些值来自定义初始化操作的行为。
您可以使用 gcloud dataproc clusters create 命令中的 --metadata
标志来提供自己的元数据:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --metadata=name1=value1,name2=value2... \ ... other flags ...