Dataproc 會為叢集中執行的執行個體設定特殊中繼資料值:
中繼資料鍵 | 值 |
---|---|
dataproc-bucket | 叢集暫存值區名稱 |
dataproc-region | 叢集端點所在地區 |
dataproc-worker-count | 叢集中的工作站節點數。值 0 表示單一節點叢集。 |
dataproc-cluster-name | 叢集名稱 |
dataproc-cluster-uuid | 叢集的 UUID |
dataproc-role | 執行個體的角色:Master 或 Worker |
dataproc-master | 第一個主要節點的主機名稱。在標準或單一節點叢集中,值為 [CLUSTER_NAME]-m ;在高可用性叢集中,值為 [CLUSTER_NAME]-m-0 ,其中 [CLUSTER_NAME] 是叢集名稱。 |
dataproc-master-additional | 高可用性叢集中其他主要節點的逗號分隔主機名稱清單,例如在有 3 個主要節點的叢集中,其他主要節點的主機名稱清單為 [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2 。 |
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL | 指向 Spark BigQuery 連接器版本的網址或版本,用於 Spark 應用程式,例如 0.42.1 或 gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar 。Dataproc 2.1 以上版本叢集預先安裝了預設的 Spark BigQuery 連接器版本。詳情請參閱「使用 Spark BigQuery 連接器」。 |
您可以使用這些值自訂初始化動作的行為。
您可以在 gcloud dataproc clusters create 指令中使用 --metadata
標記,提供您自己的中繼資料:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --metadata=name1=value1,name2=value2... \ ... other flags ...