Propiedades del clúster

Los componentes de código abierto instalados en los clústeres de Dataproc contienen muchos archivos de configuración. Por ejemplo, Apache Spark y Apache Hadoop tienen varios archivos de configuración XML y de texto sin formato. Puedes usar la marca ‑‑properties del comando gcloud dataproc clusters create para modificar muchos archivos de configuración comunes al crear un clúster.

Formato

La marca gcloud dataproc clusters create --properties acepta el siguiente formato de cadena:

file_prefix1:property1=value1,file_prefix2:property2=value2,...
  • file_prefix se asigna a un archivo de configuración predefinido, tal como se muestra en la tabla de abajo, y property se asigna a una propiedad del archivo.

  • El delimitador predeterminado que se usa para separar varias propiedades de clúster es la coma (,). Sin embargo, si se incluye una coma en el valor de una propiedad, debe cambiar el delimitador especificando "^delimiter^" al principio de la lista de propiedades (consulte Escape de temas de gcloud para obtener más información).

    • Ejemplo con el delimitador "#":
      --properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
      

Ejemplos

Comando gcloud

Para cambiar el ajuste spark.master en el archivo spark-defaults.conf, añade la siguiente marca gcloud dataproc clusters create --properties:

--properties 'spark:spark.master=spark://example.com'

Puedes cambiar varias propiedades a la vez en uno o varios archivos de configuración mediante un separador de comas. Cada propiedad debe especificarse en el formato completo file_prefix:property=value. Por ejemplo, para cambiar el ajuste spark.master del archivo spark-defaults.conf y el ajuste dfs.hosts del archivo hdfs-site.xml, usa la siguiente marca --properties al crear un clúster:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

API REST

Para definir spark.executor.memory como 10g, inserta el siguiente ajuste properties en la sección SoftwareConfig de tu solicitud clusters.create:

"properties": {
  "spark:spark.executor.memory": "10g"
}

Una forma sencilla de ver cómo crear el cuerpo JSON de una solicitud REST de la API de Dataproc Clusters es iniciar el comando gcloud equivalente con la marca --log-http. A continuación, se muestra un ejemplo de comando gcloud dataproc clusters create, que define las propiedades del clúster con la marca --properties spark:spark.executor.memory=10g. El registro stdout muestra el cuerpo de la solicitud REST resultante (el fragmento de properties se muestra a continuación):

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Salida:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

... == body end == ...

Asegúrate de cancelar el comando después de que aparezca el cuerpo JSON en la salida si no quieres que el comando surta efecto.

Consola

Para cambiar el ajuste spark.master en el archivo spark-defaults.conf, sigue estos pasos:

  1. En la consola de Google Cloud , abre la página de Dataproc Crear un clúster. Haz clic en el panel Personalizar clúster y, a continuación, desplázate hasta la sección Propiedades del clúster.

  2. Haga clic en + AÑADIR PROPIEDADES. Seleccione spark en la lista Prefijo y, a continuación, añada "spark.master" en el campo Clave y el ajuste en el campo Valor.

Propiedades de clústeres y de trabajos

Las propiedades de Apache Hadoop YARN, HDFS, Spark y otras con prefijo de archivo se aplican a nivel de clúster cuando creas un clúster. Estas propiedades no se pueden aplicar a un clúster después de crearlo. Sin embargo, muchas de estas propiedades también se pueden aplicar a tareas específicas. Cuando se aplica una propiedad a un trabajo, no se usa el prefijo del archivo.

En el siguiente ejemplo, se asigna 4 g de memoria de ejecutor de Spark a un trabajo de Spark (se omite el prefijo spark:).

gcloud dataproc jobs submit spark \
    --region=REGION \
    --properties=spark.executor.memory=4g \
    other args ...

Las propiedades de las tareas se pueden enviar en un archivo mediante la marca gcloud dataproc jobs submit job-type --properties-file (consulta, por ejemplo, la descripción de --properties-file para enviar una tarea de Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=REGION \
    --properties-file=PROPERTIES_FILE \
    other args ...

El PROPERTIES_FILE es un conjunto de pares key=value delimitados por saltos de línea. La propiedad que se va a definir es key y el valor que se va a asignar a la propiedad es value. Consulta la clase java.util.Properties para ver una descripción detallada del formato del archivo de propiedades.

A continuación, se muestra un ejemplo de un archivo de propiedades que se puede pasar a la marca --properties-file al enviar una tarea de Dataproc.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tabla de propiedades con prefijo de archivo

Prefijo de archivo Archivo Finalidad del archivo
capacity-scheduler capacity-scheduler.xml Configuración de Capacity Scheduler de Hadoop YARN
core core-site.xml Configuración general de Hadoop
distcp distcp-default.xml Configuración de copia distribuida de Hadoop
flink flink-conf.yaml Configuración de Flink
flink-log4j log4j.properties Archivo de configuración de Log4j
hadoop-env hadoop-env.sh Variables de entorno específicas de Hadoop
hadoop-log4j log4j.properties Archivo de configuración de Log4j
hbase hbase-site.xml Configuración de HBase
hbase-log4j log4j.properties Archivo de configuración de Log4j
hdfs hdfs-site.xml Configuración de HDFS de Hadoop
hive hive-site.xml Configuración de Hive
hive-log4j2 hive-log4j2.properties Archivo de configuración de Log4j
hudi hudi-default.conf Configuración de Hudi
mapred mapred-site.xml Configuración de MapReduce de Hadoop
mapred-env mapred-env.sh Variables de entorno específicas de MapReduce de Hadoop
cerdo pig.properties Configuración de Pig
pig-log4j log4j.properties Archivo de configuración de Log4j
presto config.properties Configuración de Presto
presto-jvm jvm.config Configuración de JVM específica de Presto
spark spark-defaults.conf Configuración de Spark
spark-env spark-env.sh Variables de entorno específicas de Spark
spark-log4j log4j.properties Archivo de configuración de Log4j
tez tez-site.xml Configuración de Tez
webcat-log4j webhcat-log4j2.properties Archivo de configuración de Log4j
lana yarn-site.xml Configuración de Hadoop YARN
yarn-env yarn-env.sh Variables de entorno específicas de Hadoop YARN
zeppelin zeppelin-site.xml Configuración de Zeppelin
zeppelin-env zeppelin-env.sh Variables de entorno específicas de Zeppelin (solo para componentes opcionales)
zeppelin-log4j log4j.properties Archivo de configuración de Log4j
cuidador del zoo zoo.cfg Configuración de Zookeeper
zookeeper-log4j log4j.properties Archivo de configuración de Log4j

Notas

  • Algunas propiedades están reservadas y no se pueden anular porque afectan a la funcionalidad del clúster de Dataproc. Si intentas cambiar una propiedad reservada, recibirás un mensaje de error al crear el clúster.
  • Puedes especificar varios cambios separándolos con comas.
  • La marca --properties no puede modificar los archivos de configuración que no se muestran arriba.
  • Los cambios en las propiedades se aplicarán antes de que se inicien los daemons en tu clúster.
  • Si la propiedad especificada existe, se actualizará. Si la propiedad especificada no existe, se añadirá al archivo de configuración.

Propiedades del servicio Dataproc

Las propiedades que se indican en esta sección son específicas de Dataproc. Estas propiedades se pueden usar para configurar aún más la funcionalidad de tu clúster de Dataproc.

Formato

La marca gcloud dataproc clusters create --properties acepta el siguiente formato de cadena:

property_prefix1:property1=value1,property_prefix2:property2=value2,...
  • El delimitador predeterminado que se usa para separar varias propiedades de clúster es la coma (,). Sin embargo, si se incluye una coma en el valor de una propiedad, debe cambiar el delimitador especificando "^delimiter^" al principio de la lista de propiedades (consulte Escape de temas de gcloud para obtener más información).

    • Ejemplo con el delimitador "#":
      --properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
      

Ejemplo:

Crea un clúster y define el modo de flexibilidad mejorado en la reorganización de trabajadores principales de Spark.

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    other args ...

Tabla de propiedades del servicio Dataproc

Prefijo de propiedad Propiedad Valores Descripción
dataproc agent.process.threads.job.min number Dataproc ejecuta los controladores de tareas de los usuarios simultáneamente en un grupo de subprocesos. Esta propiedad controla el número mínimo de subprocesos del grupo de subprocesos para que el inicio sea rápido, incluso cuando no se estén ejecutando trabajos (valor predeterminado: 10).
dataproc agent.process.threads.job.max number Dataproc ejecuta los controladores de tareas de los usuarios simultáneamente en un grupo de subprocesos. Esta propiedad controla el número máximo de subprocesos del grupo de subprocesos, por lo que limita la simultaneidad máxima de los trabajos de los usuarios. Aumenta este valor para obtener una mayor simultaneidad (valor predeterminado: 100).
dataproc am.primary_only true o false Define esta propiedad como true para evitar que el maestro de aplicaciones se ejecute en los trabajadores preemptibles del clúster de Dataproc. Nota: Esta función solo está disponible con Dataproc 1.2 y versiones posteriores. El valor predeterminado es false.
dataproc conda.env.config.uri gs://<path> Ubicación en Cloud Storage del archivo de configuración del entorno de Conda. Se creará y activará un nuevo entorno de Conda basado en este archivo. Para obtener más información, consulta Usar propiedades de clúster relacionadas con Conda. Valor predeterminado: empty.
dataproc conda.packages Paquetes de Conda Esta propiedad toma una lista de paquetes de Conda separados por comas con versiones específicas que se instalarán en el entorno de base Conda. Para obtener más información, consulta Usar propiedades de clúster relacionadas con Conda. Valor predeterminado: empty.
dataproc dataproc.allow.zero.workers true o false Asigna el valor true a esta propiedad SoftwareConfig en una solicitud de la API clusters.create de Dataproc para crear un clúster de un solo nodo, lo que cambia el número predeterminado de trabajadores de 2 a 0 y coloca los componentes de los trabajadores en el host maestro. También se puede crear un clúster de un solo nodo desde la Google Cloud consola o con la CLI de Google Cloud. Para ello, debes definir el número de trabajadores en 0.
dataproc dataproc.alpha.master.nvdimm.size.gb 1500-6500 Al definir un valor, se crea un maestro de Dataproc con memoria persistente Intel Optane DC. Nota: Las VMs Optane solo se pueden crear en zonas us-central1-f, solo con el tipo de máquina n1-highmem-96-aep y solo en proyectos incluidos en la lista blanca.
Dataproc: dataproc.alpha.worker.nvdimm.size.gb 1500-6500 Si se asigna un valor, se crea un trabajador de Dataproc con memoria persistente Intel Optane DC. Nota: Las VMs Optane solo se pueden crear en zonas us-central1-f, solo con el tipo de máquina n1-highmem-96-aep y solo en proyectos incluidos en la lista blanca.
Dataproc: dataproc.await-new-workers-service-registration true o false Esta propiedad está disponible en las imágenes 2.0.49 y versiones posteriores. El valor predeterminado es false. Define esta propiedad como true para esperar a que los nuevos trabajadores principales registren líderes de servicio, como HDFS NameNode y YARN ResourceManager, durante la creación o el escalado vertical de un clúster (solo se monitorizan los servicios HDFS y YARN). Si se define como true y un nuevo trabajador no consigue registrarse en un servicio, se le asigna el estado FAILED. Si el clúster se está ampliando, se elimina el trabajador que ha fallado. Si se está creando el clúster, se elimina un trabajador con errores si se ha especificado la marca gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE o el campo actionOnFailedPrimaryWorkers=DELETE de la API como parte del comando gcloud o de la solicitud de creación de clúster de la API.
Dataproc: dataproc.beta.secure.multi-tenancy.user.mapping user-to-service account mappings Esta propiedad toma una lista de asignaciones de usuarios a cuentas de servicio. Los usuarios asignados pueden enviar cargas de trabajo interactivas al clúster con identidades de usuario aisladas (consulta Multiarrendamiento seguro basado en cuentas de servicio de Dataproc).
Dataproc: dataproc.cluster.caching.enabled true o false Cuando la caché de clúster está habilitada, el clúster almacena en caché los datos de Cloud Storage a los que acceden las tareas de Spark, lo que mejora el rendimiento de las tareas sin comprometer la coherencia. Valor predeterminado: false.
dataproc dataproc.cluster-ttl.consider-yarn-activity true o false Si se define como true, Eliminación programada de clústeres tiene en cuenta la actividad de las APIs de trabajos de YARN y Dataproc al calcular el tiempo de inactividad del clúster. Si se define como false, solo se tiene en cuenta la actividad de la API de tareas de Dataproc. El valor predeterminado es true. Para obtener más información, consulta Cálculo del tiempo de inactividad del clúster.
dataproc dataproc.conscrypt.provider.enable true o false Habilita (true) o inhabilita (false) Conscrypt como proveedor de seguridad principal de Java. Nota: Conscrypt está habilitado de forma predeterminada en Dataproc 1.2 y versiones posteriores, pero está inhabilitado en 1.0 y 1.1.
dataproc dataproc.cooperative.multi-tenancy.user.mapping user-to-service account mappings Esta propiedad toma una lista de asignaciones de usuarios a cuentas de servicio separadas por comas. Si se crea un clúster con esta propiedad definida, cuando un usuario envíe un trabajo, el clúster intentará suplantar la cuenta de servicio correspondiente al acceder a Cloud Storage a través del conector de Cloud Storage. Esta función requiere la versión 2.1.4 o una posterior del conector de Cloud Storage. Para obtener más información, consulta Multitenancy cooperativa de Dataproc. Valor predeterminado: empty.
dataproc dataproc.control.max.assigned.job.tasks 100 Esta propiedad limita el número de tareas que se pueden ejecutar simultáneamente en un nodo maestro de un clúster. Si el número de tareas activas supera el límite de tareas, las tareas nuevas se ponen en cola hasta que se completen las tareas en ejecución y se liberen recursos para permitir que se programen nuevas tareas. Nota: No se recomienda establecer un límite de tareas predeterminado superior a 100 (el valor predeterminado), ya que puede provocar una condición de falta de memoria en el nodo maestro.
dataproc dataproc:hudi.version Versión de Hudi Define la versión de Hudi que se usa con el componente de Hudi de Dataproc opcional. Nota: Dataproc define esta versión para que sea compatible con la versión de imagen del clúster. Si lo define el usuario, la creación del clúster puede fallar si la versión especificada no es compatible con la imagen del clúster.
dataproc dataproc.lineage.enabled true Habilita el linaje de datos en un clúster de Dataproc para tareas de Spark.
dataproc dataproc.localssd.mount.enable true o false Indica si se deben montar los SSD locales como directorios temporales de Hadoop o Spark y como directorios de datos de HDFS (valor predeterminado: true).
dataproc dataproc.logging.extended.enabled true o false Habilita (true) o inhabilita (false) los registros de Cloud Logging para lo siguiente: knox, zeppelin, ranger-usersync, jupyter_notebook, jupyter_kernel_gateway y spark-history-server (valor predeterminado: false). Para obtener más información, consulta Registros de clústeres de Dataproc en Logging.
dataproc dataproc.logging.stackdriver.enable true o false Habilita (true) o inhabilita (false) Cloud Logging (valor predeterminado: true). Consulta los precios de Cloud Logging para ver los cargos asociados.
dataproc dataproc.logging.stackdriver.job.driver.enable true o false Habilita (true) o inhabilita (false) los registros del controlador de tareas de Dataproc en Cloud Logging. Consulta la salida y los registros de las tareas de Dataproc (valor predeterminado: false).
dataproc dataproc.logging.stackdriver.job.yarn.container.enable true o false Habilita (true) o inhabilita (false) los registros de contenedores de YARN en Cloud Logging. Consulta las opciones de salida de trabajos de Spark. Valor predeterminado: false.
dataproc dataproc.logging.syslog.enabled true o false Habilita (true) o inhabilita (false) los registros syslog de la VM en Cloud Logging (valor predeterminado: false).
dataproc dataproc.master.custom.init.actions.mode RUN_BEFORE_SERVICES o RUN_AFTER_SERVICES En los clústeres de imágenes 2.0 o versiones posteriores, si se asigna el valor RUN_AFTER_SERVICES, las acciones de inicialización del nodo maestro se ejecutarán después de que se inicialicen HDFS y los servicios que dependan de HDFS. Entre los servicios que dependen de HDFS se incluyen HBase, Hive Server2, Ranger, Solr y los servidores de historial de Spark y MapReduce. Valor predeterminado: RUN_BEFORE_SERVICES.
dataproc dataproc.monitoring.stackdriver.enable true o false Habilita (true) o inhabilita (false) el agente de monitorización (valor predeterminado: false). Esta propiedad está obsoleta. Consulta Habilitar la recogida de métricas personalizadas para habilitar la recogida de métricas de OSS de Dataproc en Monitoring.
dataproc dataproc.scheduler.driver-size-mb number El uso medio de memoria del controlador, que determina el número máximo de trabajos simultáneos que ejecutará un clúster. El valor predeterminado es 1 GB. Un valor más pequeño, como 256, puede ser adecuado para los trabajos de Spark.
dataproc dataproc.scheduler.job-submission-rate number Las tareas se limitan si se supera esta tasa. La tasa predeterminada es de 1.0 CPS.
dataproc dataproc.scheduler.max-concurrent-jobs number Número máximo de trabajos simultáneos. Si no se define este valor al crear el clúster, el límite superior de los trabajos simultáneos se calcula como max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5). masterMemoryMb se determina en función del tipo de máquina de la VM maestra. masterMemoryMbPerJob tiene el valor 1024 de forma predeterminada, pero se puede configurar al crear el clúster con la propiedad de clúster dataproc:dataproc.scheduler.driver-size-mb.
dataproc dataproc.scheduler.max-memory-used number Cantidad máxima de RAM que se puede usar. Si el uso actual supera este umbral, no se podrán programar nuevos trabajos. El valor predeterminado es 0.9 (90%). Si se asigna el valor 1.0, se inhabilita la limitación de tareas de uso de memoria principal.
dataproc dataproc.scheduler.min-free-memory.mb number Cantidad mínima de memoria libre en megabytes que necesita el controlador de trabajos de Dataproc para programar otro trabajo en el clúster. El valor predeterminado es 256 MB.
dataproc dataproc.snap.enabled true o false Habilita o inhabilita el demonio de Ubuntu Snap. El valor predeterminado es true. Si se define como false, los paquetes Snap preinstalados en la imagen no se verán afectados, pero la actualización automática estará inhabilitada. Se aplica a las imágenes de Ubuntu 1.4.71, 1.5.46, 2.0.20 y versiones posteriores.
dataproc dataproc.worker.custom.init.actions.mode RUN_BEFORE_SERVICES En los clústeres de imágenes anteriores a la versión 2.0, RUN_BEFORE_SERVICES no está definido, pero el usuario puede definirlo al crear el clúster. En los clústeres de imágenes 2.0 o versiones posteriores, se define RUN_BEFORE_SERVICES y no se puede transferir la propiedad al clúster (el usuario no puede cambiarla). Para obtener información sobre el efecto de este ajuste, consulta Consideraciones y directrices importantes: procesamiento de inicialización.
dataproc dataproc.yarn.orphaned-app-termination.enable true o false El valor predeterminado es true. Defina el valor false para evitar que Dataproc finalice las aplicaciones YARN "huérfanas". Dataproc considera que una aplicación de YARN es huérfana si el controlador de tarea que la envió ha finalizado. Advertencia: Si usas el modo de clúster de Spark (spark.submit.deployMode=cluster) y defines spark.yarn.submit.waitAppCompletion=false, el controlador de Spark se cierra sin esperar a que se completen las aplicaciones de YARN. En este caso, define dataproc:dataproc.yarn.orphaned-app-termination.enable=false. También debe asignar el valor false a esta propiedad si envía trabajos de Hive.
dataproc diagnostic.capture.enabled true o false Habilita la recogida de datos de diagnóstico de puntos de control de clústeres. Valor predeterminado: false.
dataproc diagnostic.capture.access GOOGLE_DATAPROC_DIAGNOSE Si se define como GOOGLE_DATAPROC_DIAGNOSE, los datos de diagnóstico de los puntos de control del clúster, que se guardan en Cloud Storage, se comparten con el equipo de Asistencia de Dataproc. El valor predeterminado es "sin definir".
dataproc efm.spark.shuffle primary-worker Si se define como primary-worker, los datos de aleatorización de Spark se escriben en los trabajadores principales. Para obtener más información, consulta el artículo sobre el modo de flexibilidad mejorado de Dataproc.
dataproc job.history.to-gcs.enabled true o false Permite conservar los archivos de historial de MapReduce y Spark en el bucket temporal de Dataproc (valor predeterminado: true para las versiones de imagen 1.5 y posteriores). Los usuarios pueden sobrescribir las ubicaciones de conservación de los archivos de historial de trabajos mediante las siguientes propiedades: mapreduce.jobhistory.done-dir, mapreduce.jobhistory.intermediate-done-dir, spark.eventLog.dir y spark.history.fs.logDirectory. Consulta Servidor de historial persistente de Dataproc para obtener información sobre estas y otras propiedades de clúster asociadas al historial de tareas y a los archivos de eventos de Dataproc.
dataproc jobs.file-backed-output.enable true o false Configura las tareas de Dataproc para que canalicen su salida a archivos temporales en el directorio /var/log/google-dataproc-job. Debe tener el valor true para habilitar el registro del controlador de trabajos en Cloud Logging (valor predeterminado: true).
dataproc jupyter.listen.all.interfaces true o false Para reducir el riesgo de ejecución de código remoto a través de APIs de servidor de cuaderno no seguras, el ajuste predeterminado de las versiones de imagen 1.3 y posteriores es false, que restringe las conexiones a localhost (127.0.0.1) cuando Component Gateway está habilitado (no es necesario activar Component Gateway para las imágenes 2.0 y posteriores). Este ajuste predeterminado se puede anular configurando esta propiedad en true para permitir todas las conexiones.
dataproc jupyter.notebook.gcs.dir gs://<dir-path> Ubicación de Cloud Storage para guardar los cuadernos de Jupyter.
dataproc kerberos.beta.automatic-config.enable true o false Si se define como true, los usuarios no tienen que especificar la contraseña principal raíz de Kerberos con las marcas --kerberos-root-principal-password y --kerberos-kms-key-uri (valor predeterminado: false). Consulta Habilitar el modo Seguro de Hadoop a través de Kerberos para obtener más información.
dataproc kerberos.cross-realm-trust.admin-server hostname/address Nombre de host o dirección del servidor de administración remoto (a menudo es el mismo que el del servidor KDC).
dataproc kerberos.cross-realm-trust.kdc hostname/address Nombre de host o dirección del KDC remoto.
dataproc kerberos.cross-realm-trust.realm realm name Los nombres de los reinos pueden estar formados por cualquier cadena ASCII en MAYÚSCULAS. Normalmente, el nombre del ámbito es el mismo que el nombre de dominio DNS (en MAYÚSCULAS). Por ejemplo, si las máquinas se llaman "machine-id.example.west-coast.mycompany.com", el dominio asociado puede designarse como "EXAMPLE.WEST-COAST.MYCOMPANY.COM".
dataproc kerberos.cross-realm-trust.shared-password.uri gs://<dir-path> Ubicación en Cloud Storage de la contraseña compartida cifrada con KMS.
dataproc kerberos.kdc.db.key.uri gs://<dir-path> Ubicación en Cloud Storage del archivo cifrado con KMS que contiene la clave maestra de la base de datos KDC.
dataproc kerberos.key.password.uri gs://<dir-path> Ubicación en Cloud Storage del archivo cifrado con KMS que contiene la contraseña de la clave del archivo de almacén de claves.
dataproc kerberos.keystore.password.uri gs://<dir-path> Ubicación en Cloud Storage del archivo encriptado con KMS que contiene la contraseña del almacén de claves.
dataproc kerberos.keystore.uri1 gs://<dir-path> Ubicación en Cloud Storage del archivo de almacén de claves que contiene el certificado comodín y la clave privada que utilizan los nodos del clúster.
dataproc kerberos.kms.key.uri KMS key URI El URI de la clave de KMS que se usa para descifrar la contraseña raíz. Por ejemplo, projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (consulta ID de recurso de clave).
dataproc kerberos.root.principal.password.uri gs://<dir-path> Ubicación en Cloud Storage de la contraseña cifrada con KMS de la entidad de seguridad raíz de Kerberos.
dataproc kerberos.tgt.lifetime.hours hours Tiempo de vida máximo del vale de concesión de vales.
dataproc kerberos.truststore.password.uri gs://<dir-path> Ubicación en Cloud Storage del archivo encriptado con KMS que contiene la contraseña del archivo del almacén de confianza.
dataproc kerberos.truststore.uri2 gs://<dir-path> Ubicación en Cloud Storage del archivo del almacén de confianza cifrado con KMS que contiene certificados de confianza.
dataproc pip.packages Paquetes de pip Esta propiedad toma una lista de paquetes Pip separados por comas con versiones específicas que se instalarán en el base entorno de Conda. Para obtener más información, consulta Propiedades de clúster relacionadas con Conda. Valor predeterminado: empty.
dataproc ranger.kms.key.uri KMS key URI El URI de la clave de KMS que se usa para descifrar la contraseña del usuario administrador de Ranger. Por ejemplo, projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (consulta ID de recurso de clave).
dataproc ranger.admin.password.uri gs://<dir-path> Ubicación en Cloud Storage de la contraseña cifrada con KMS del usuario administrador de Ranger.
dataproc ranger.db.admin.password.uri gs://<dir-path> Ubicación en Cloud Storage de la contraseña cifrada con KMS del usuario administrador de la base de datos de Ranger.
dataproc ranger.cloud-sql.instance.connection.name cloud sql instance connection name El nombre de conexión de la instancia de Cloud SQL, por ejemplo, project-id:region:name.
dataproc ranger.cloud-sql.root.password.uri gs://<dir-path> Ubicación en Cloud Storage de la contraseña cifrada con KMS del usuario raíz de la instancia de Cloud SQL.
dataproc ranger.cloud-sql.use-private-ip true o false Indica si la comunicación entre las instancias del clúster y la instancia de Cloud SQL debe realizarse a través de una IP privada (el valor predeterminado es false).
dataproc solr.gcs.path gs://<dir-path> Ruta de Cloud Storage que actuará como directorio principal de Solr.
dataproc startup.component.service-binding-timeout.hadoop-hdfs-namenode seconds Tiempo que esperará el script de inicio de Dataproc a que hadoop-hdfs-namenode se enlace a los puertos antes de decidir si se ha iniciado correctamente. El valor máximo reconocido es de 1800 segundos (30 minutos).
dataproc startup.component.service-binding-timeout.hive-metastore seconds Tiempo que esperará la secuencia de comandos de inicio de Dataproc para que el servicio hive-metastore se enlace a los puertos antes de decidir si el inicio se ha completado correctamente. El valor máximo reconocido es de 1800 segundos (30 minutos).
dataproc startup.component.service-binding-timeout.hive-server2 seconds Tiempo que esperará el script de inicio de Dataproc a que hive-server2 se enlace a los puertos antes de decidir si se ha iniciado correctamente. El valor máximo reconocido es de 1800 segundos (30 minutos).
dataproc user-attribution.enabled true o false Asigna el valor true a esta propiedad para atribuir un trabajo de Dataproc a la identidad del usuario que lo ha enviado (el valor predeterminado es false).
dataproc yarn.docker.enable true o false Asigna el valor true para habilitar la función Dataproc Docker on YARN (el valor predeterminado es false).
dataproc yarn.docker.image docker image Cuando habilitas la función Dataproc Docker on YARN (dataproc:yarn.docker.enable=true), puedes usar esta propiedad opcional para especificar tu imagen de Docker (por ejemplo, dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1). Si se especifica, la imagen se descarga y se almacena en caché en todos los nodos del clúster durante la creación del clúster.
dataproc yarn.log-aggregation.enabled true o false Permite (true) activar la agregación de registros de YARN en el temp bucket del clúster. El nombre del segmento tiene el siguiente formato: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>. Valor predeterminado: true para las versiones de imagen 1.5 y posteriores. Nota: El bucket temporal del clúster no se elimina cuando se elimina el clúster. Los usuarios también pueden definir la ubicación de los registros de YARN agregados sobrescribiendo la propiedad de YARN yarn.nodemanager.remote-app-log-dir.
knox gateway.host ip address Para reducir el riesgo de ejecución de código remoto a través de APIs de servidores de cuadernos no seguros, el ajuste predeterminado de las versiones de imagen 1.3 y posteriores es 127.0.0.1, que restringe las conexiones a localhost cuando Component Gateway está habilitado. El ajuste predeterminado se puede anular. Por ejemplo, puedes definir esta propiedad como 0.0.0.0 para permitir todas las conexiones.
zeppelin zeppelin.notebook.gcs.dir gs://<dir-path> Ubicación de Cloud Storage para guardar los cuadernos de Zeppelin.
zeppelin zeppelin.server.addr ip address Para reducir el riesgo de ejecución de código remoto a través de APIs de servidores de cuadernos no seguros, el ajuste predeterminado de las versiones de imagen 1.3 y posteriores es 127.0.0.1, que restringe las conexiones a localhost cuando Component Gateway está habilitado. Este ajuste predeterminado se puede anular. Por ejemplo, puedes definir esta propiedad como 0.0.0.0 para permitir todas las conexiones.

1Archivo de almacén de claves: contiene el certificado SSL. Debe estar en formato de almacén de claves de Java (JKS). Cuando se copia en las VMs, se cambia el nombre a keystore.jks. El certificado SSL debe ser un certificado comodín que se aplique a cada nodo del clúster.

2Archivo de almacén de confianza: el archivo de almacén de confianza debe estar en formato de almacén de claves de Java (JKS). Cuando se copia en las VMs, se cambia el nombre a truststore.jks.