Dataproc define valores de metadatos especiales para las instancias que se ejecutan en tu clúster:
Clave de metadatos | Valor |
---|---|
dataproc-bucket | Nombre del segmento de almacenamiento provisional del clúster. |
dataproc-region | Región del endpoint del clúster |
dataproc-worker-count | Número de nodos de trabajador del clúster. El valor es 0 para los clústeres de un solo nodo. |
dataproc-cluster-name | Nombre del clúster |
dataproc-cluster-uuid | UUID del clúster |
dataproc-role | Rol de la instancia, ya sea Master o Worker |
dataproc-master | Nombre de host del primer nodo maestro. El valor es [CLUSTER_NAME]-m en un clúster estándar o de un solo nodo, o [CLUSTER_NAME]-m-0 en un clúster de alta disponibilidad, donde [CLUSTER_NAME] es el nombre del clúster. |
dataproc-master-additional | Lista separada por comas de los nombres de host de los nodos maestros adicionales de un clúster de alta disponibilidad. Por ejemplo, [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2 en un clúster que tenga 3 nodos maestros. |
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL | La versión o la URL que apunta a una versión del conector de BigQuery de Spark que se va a usar en las aplicaciones de Spark. Por ejemplo, 0.42.1 o gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar . En los clústeres de Dataproc con la versión de imagen 2.1 y posteriores, se ha preinstalado una versión predeterminada del conector de Spark BigQuery. Para obtener más información, consulta Usar el conector de BigQuery de Spark. |
Puede usar estos valores para personalizar el comportamiento de las acciones de inicialización.
Puedes usar la marca --metadata
en el comando gcloud dataproc clusters create para proporcionar tus propios metadatos:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --metadata=name1=value1,name2=value2... \ ... other flags ...