Propiedades del clúster

Los componentes de código abierto instalados en los clústeres de Cloud Dataproc contienen muchos archivos de configuración. Por ejemplo, Apache Spark y Apache Hadoop tienen varios archivos de configuración XML y de texto sin formato. De vez en cuando, es posible que necesites actualizar o agregar a estos archivos de configuración. Puedes usar la marca ‑‑properties del comando de creación de clústeres de gcloud dataproc en el SDK de Cloud para modificar varios archivos de configuración comunes cuando creas un clúster.

Cómo funciona la marca properties

Para facilitar la actualización de archivos y propiedades, la marca gcloud dataproc clusters create --properties usa un formato especial con el fin de especificar el archivo de configuración y la propiedad y el valor dentro del archivo que deben actualizarse.

Formato

La marca --properties requiere una string de texto en el siguiente formato:

file_prefix:property=value

La marca --properties solo puede modificar un conjunto específico de archivos de configuración de uso común. file_prefix se asigna a un conjunto predefinido de archivos de configuración.

file_prefix Archivo Propósito del archivo
capacity-scheduler capacity-scheduler.xml Configuración de Hadoop YARN Capacity Scheduler
core core-site.xml Configuración general de Hadoop
distcp distcp-default.xml Configuración de Hadoop Distributed Copy
hadoop-env hadoop-env.sh Variables de entorno específicas de Hadoop
hdfs hdfs-site.xml Configuración de Hadoop HDFS
hive hive-site.xml Configuración de Hive
mapred mapred-site.xml Configuración de Hadoop MapReduce
mapred-env mapred-env.sh Variables de entorno específicas de Hadoop MapReduce
pig pig.properties Configuración de Pig
presto config.properties Configuración de Presto
presto-jvm jvm.config Configuración de JVM específica de Presto
spark spark-defaults.conf Configuración de Spark
spark-env spark-env.sh Variables de entorno específicas de Spark
yarn yarn-site.xml Configuración de Hadoop YARN
yarn-env yarn-env.sh Variables de entorno específicas de Hadoop YARN
zeppelin zeppelin-site.xml Configuración de Zeppelin
zeppelin-env zeppelin-env.sh Variables de entorno específicas de Zeppelin (solo componente opcional)
zookeeper zoo.cfg Configuración de Zookeeper

Notas importantes

  • Algunas propiedades están reservadas y no se pueden anular porque afectan la funcionalidad del clúster de Cloud Dataproc. Si intentas cambiar una propiedad reservada, recibirás un mensaje de error cuando crees tu clúster.
  • Puedes especificar varios cambios si los separas con una coma.
  • La marca --properties no puede modificar los archivos de configuración que no se muestran anteriormente.
  • Actualmente, no se admite cambiar propiedades cuando se crean clústeres en Google Cloud Platform Console.
  • Los cambios en las propiedades se aplicarán antes de que comiencen los daemons en tu clúster.
  • Si existe la propiedad especificada, se actualizará. Si no existe la propiedad especificada, se agregará al archivo de configuración.

Propiedades del servicio de Cloud Dataproc

Estas son propiedades específicas de Cloud Dataproc que no se incluyen en los archivos mencionados anteriormente. Estas propiedades se pueden usar para configurar aún más la funcionalidad de tu clúster de Cloud Dataproc.

Propiedad Valores Función
dataproc:dataproc.logging.stackdriver.enable true o false Habilita (true) o inhabilita (false) el registro en Stackdriver.
dataproc:dataproc.monitoring.stackdriver.enable true o false Habilita (true) o inhabilita (false) el Agente de supervisión de Stackdriver.
dataproc:dataproc.localssd.mount.enable true o false Ya sea para activar SSD locales como los directorios temporales de Hadoop/Spark y directorios de datos de HDFS (predeterminado: true).
dataproc:dataproc.allow.zero.workers true o false Configura esta propiedad SoftwareConfig en true en una solicitud de la API clusters.create de Cloud Dataproc para crear un clúster de un solo nodo, que cambia el número predeterminado de trabajadores de 2 a 0 y ubica los componentes del trabajador en el host principal. También se puede crear un clúster de un solo nodo desde GCP Console o con la herramienta de línea de comandos de gcloud si configuras el número de trabajadores en 0.
dataproc:dataproc.conscrypt.provider.enable true o false Habilita (true) o inhabilita (false) Conscrypt con el proveedor de seguridad de Java principal. Nota: Se habilita Conscrypt de manera predeterminada en Dataproc 1.2 y superior, pero se inhabilita en 1.0/1.1.
dataproc:am.primary_only true o false Configura esta propiedad en true para evitar que la aplicación principal se ejecuta en los trabajadores interrumpibles del clúster de Cloud Dataproc. Nota: Esta característica solo está disponible con Cloud Dataproc 1.2 y superior. El valor predeterminado es false.
dataproc:jupyter.notebook.gcs.dir gs://<dir-path> Ubicación en Cloud Storage para guardar notebooks de Jupyter.

Ejemplos

Comando de gcloud

Para cambiar la configuración spark.master en el archivo spark-defaults.conf, puedes agregar la marca properties cuando creas un clúster nuevo en la línea de comandos:
--properties 'spark:spark.master=spark://example.com'
Puedes cambiar varias propiedades a la vez, en uno o más archivos de configuración, si usas una coma como separador. Se debe especificar cada propiedad en el formato completo file_prefix:property=value. Por ejemplo, para cambiar la configuración spark.master en el archivo spark-defaults.conf y la dfs.hosts en el archivo hdfs-site.xml, puedes usar la marca a continuación cuando creas un clúster:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API de REST

Para configurar spark.executor.memory en 10g, inserta lo siguiente en el cuerpo de tu solicitud JSON de creación del clúster:
"properties": {
  "spark:spark.executor.memory": "10g"
}

Console

Actualmente, no se admite agregar propiedades del clúster desde la página de GCP Console Crea un clúster de Cloud Dataproc.
¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

Documentación de Cloud Dataproc
¿Necesitas ayuda? Visita nuestra página de asistencia.