Dataproc establece valores especiales de metadatos para las instancias que se ejecutan en tu clúster:
Clave de metadatos | Valor |
---|---|
dataproc-bucket | Nombre del depósito de etapa de pruebas del clúster |
dataproc-region | Región del extremo del clúster |
dataproc-worker-count | Número de nodos trabajadores en el clúster. El valor es 0 para clústeres de un solo nodo. |
dataproc-cluster-name | Nombre del clúster |
dataproc-cluster-uuid | UUID del clúster |
dataproc-role | Función de la instancia, que puede ser Master o Worker |
dataproc-master | Nombre del host del primer nodo principal. El valor es [CLUSTER_NAME]-m en un clúster de nodo único o estándar, o [CLUSTER_NAME]-m-0 en un clúster de alta disponibilidad, en el cual [CLUSTER_NAME] es el nombre de tu clúster. |
dataproc-master-additional | Lista de nombres de host separados por comas para los nodos principales adicionales en un clúster de alta disponibilidad, por ejemplo, [CLUSTER_NAME]-m-1,[CLUSTER_NAME]-m-2 en un clúster que tiene 3 nodos de instancias principales. |
SPARK_BQ_CONNECTOR_VERSION or SPARK_BQ_CONNECTOR_URL | Es la versión o URL que apunta a una versión del conector de BigQuery para Spark que se usará en las aplicaciones de Spark, por ejemplo, 0.42.1 o gs://spark-lib/bigquery/spark-3.5-bigquery-0.42.1.jar . En los clústeres de Dataproc con la versión de imagen 2.1 y posteriores, se preinstala una versión predeterminada del conector de Spark BigQuery. Para obtener más información, consulta Usa el conector de BigQuery para Spark. |
Puedes usar estos valores para personalizar el comportamiento de las acciones de inicialización.
Puedes usar la marca --metadata
en el comando gcloud dataproc clusters create para proporcionar tus propios metadatos:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --metadata=name1=value1,name2=value2... \ ... other flags ...