Propiedades del proveedor de Dataproc

El aprovisionador de Dataproc en Cloud Data Fusion llama a la API de Dataproc para crear y borrar clústeres en tus proyectos de Google Cloud. Puedes configurar los clústeres en la configuración del aprovisionador.

Para obtener más información sobre la compatibilidad entre las versiones de Cloud Data Fusion y las de Dataproc, consulta Compatibilidad de versiones.

Propiedades

Propiedad Descripción
ID del proyecto El Google Cloud proyecto en el que se crea el clúster de Dataproc. El proyecto debe tener habilitada la API de Dataproc.
Clave de la cuenta de servicio del creador

La clave de la cuenta de servicio que se proporciona al aprovisionador debe tener permiso para acceder a las APIs de Dataproc y Compute Engine. Debido a que la clave de tu cuenta es sensible, te recomendamos que la proporciones con Secure Storage.

Después de crear la clave segura, puedes agregarla a un espacio de nombres o a un perfil de procesamiento del sistema. Para un perfil de procesamiento de espacio de nombres, haz clic en el escudo y selecciona la clave segura. Para un perfil de procesamiento del sistema, ingresa el nombre de la clave en el campo Clave de cuenta segura.

Región Es una ubicación geográfica en la que puedes alojar tus recursos, como los nodos de procesamiento del clúster de Dataproc.
Zona Un área de implementación aislada dentro de una región.
Red La red de VPC de tu Google Cloud proyecto que se usará cuando crees un clúster de Dataproc.
ID del proyecto host de la red Si la red reside en otro Google Cloud proyecto, ingresa el ID de ese proyecto. Para una VPC compartida, ingresa el ID del proyecto host en el que reside la red.
Subred Es la subred que se usará cuando se creen clústeres. Debe estar dentro de la red determinada y en la región en la que se encuentra la zona. Si se deja en blanco, se selecciona una subred según la red y la zona.
Cuenta de servicio de Runner Es el nombre de la cuenta de servicio de las máquinas virtuales (VM) de Dataproc que se usan para ejecutar programas. Si se deja en blanco, se usa la cuenta de servicio predeterminada de Compute Engine.
Cantidad de maestros

La cantidad de nodos principales en el clúster. Estos nodos contienen el administrador de recursos YARN, HDFS NameNode y todos los controladores. Debe establecerse en 1 o 3.

La cantidad predeterminada es 1.

Tipo de máquina principal

El tipo de máquina principal que se usará. Selecciona uno de los siguientes tipos de máquinas:

  • n1
  • n2
  • n2d
  • e2

En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2.

En la versión 6.7.1, el valor predeterminado es n2.

En la versión 6.7.0 y anteriores, el valor predeterminado es n1.

Núcleos principales

Cantidad de núcleos virtuales asignados a un nodo principal.

El valor predeterminado es 2.

Memoria principal (GB)

Es la cantidad de memoria, en gigabytes, asignada a un nodo principal.

El valor predeterminado es 8 GB.

Tamaño del disco principal (GB)

Es el tamaño del disco, en gigabytes, asignado a un nodo principal.

El valor predeterminado es 1,000 GB.

Tipo de disco principal

Tipo de disco de arranque para un nodo principal:

  • Disco persistente estándar
  • Disco persistente SSD

El valor predeterminado es Disco persistente estándar.

Tipo de máquina de trabajo

El tipo de máquina de trabajo que se usará Selecciona uno de los siguientes tipos de máquinas:

  • n1
  • n2
  • n2d
  • e2

En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2.

En la versión 6.7.1, el valor predeterminado es n2.

En la versión 6.7.0 y anteriores, el valor predeterminado es n1.

Núcleos de trabajo

Cantidad de núcleos virtuales asignados a un nodo trabajador.

El valor predeterminado es 2.

Memoria del trabajador (GB)

Es la cantidad de memoria, en gigabytes, asignada a un nodo trabajador.

El valor predeterminado es 8 GB.

Tamaño del disco del trabajador (GB)

Es el tamaño del disco, en gigabytes, asignado a un nodo trabajador.

El valor predeterminado es 1,000 GB.

Tipo de disco del trabajador

Tipo de disco de arranque para un nodo de trabajo:

  • Disco persistente estándar
  • Disco persistente SSD

El valor predeterminado es Disco persistente estándar.

Cómo usar el ajuste de escala automático predefinido Habilita el uso del ajuste de escala automático predefinido de Dataproc.
Cantidad de trabajadores principales

Los nodos de trabajo contienen un NodeManager de YARN y un DataNode de HDFS.

El valor predeterminado es 2.

Cantidad de trabajadores secundarios Los nodos de trabajo secundarios contienen un NodeManager de YARN, pero no un DataNode de HDFS. Por lo general, se establece en cero, a menos que una política de ajuste de escala automático requiera que sea más alto.
Política de ajuste de escala automático

Es la ruta de acceso para el ID de la política de escalamiento automático o el URI del recurso.

Si deseas obtener información para configurar y usar el ajuste de escala automático de Dataproc para cambiar el tamaño de forma automática y dinámica de los clústeres según las demandas de carga de trabajo, consulta Cuándo usar el ajuste de escala automático y Ajusta el escalamiento automático de los clústeres de Dataproc.

Metadatos Metadatos adicionales para las instancias que se ejecutan en tu clúster. Por lo general, puedes usarlo para hacer un seguimiento de la facturación y las devoluciones de cargos. Para obtener más información, consulta Metadatos del clúster.
Etiquetas de red Asigna etiquetas de red para aplicar reglas de firewall a los nodos específicos de un clúster. Las etiquetas de red deben comenzar con una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar con una letra minúscula o un número.
Habilita el inicio seguro

Habilita el inicio seguro en las VMs de Dataproc.

El valor predeterminado es False.

Habilita vTPM

Habilita el módulo de plataforma de confianza virtual (vTPM) en las VMs de Dataproc.

El valor predeterminado es False.

Habilita la supervisión de integridad

Habilita la supervisión de integridad virtual en las VMs de Dataproc.

El valor predeterminado es False.

Versión de la imagen La versión de la imagen de Dataproc. Si se deja en blanco, se seleccionará una automáticamente. Si la propiedad URI de imagen personalizada se deja en blanco, se ignora.
URI de imagen personalizada El URI de la imagen de Dataproc. Si se deja en blanco, se infiere de la propiedad Image version.
Bucket de etapa intermedia Bucket de Cloud Storage que se usa para almacenar en etapa de pruebas las dependencias de trabajos y los archivos de configuración para ejecutar canalizaciones en Dataproc.
Bucket temporal

Bucket de Cloud Storage que se usa para almacenar datos de trabajos y clústeres efímeros, como los archivos de historial de Spark en Dataproc.

Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.

Nombre de la clave de encriptación La clave de encriptación administrada por el cliente (CMEK) que usa Dataproc
Alcances de OAuth

Los permisos de OAuth 2.0 que podrías necesitar para acceder a las APIs de Google, según el nivel de acceso que necesites. Siempre se incluye el Google Cloud alcance de la plataforma.

Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.

Acciones de inicialización Una lista de secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben colocarse en Cloud Storage.
Propiedades del clúster Propiedades del clúster que anulan las propiedades de configuración predeterminadas de los servicios de Hadoop Para obtener más información sobre los pares clave-valor aplicables, consulta Propiedades del clúster.
Etiquetas comunes

Etiquetas para organizar los trabajos y clústeres de Dataproc que se crean

Puedes etiquetar cada recurso y, luego, filtrar los recursos por etiquetas. La información sobre las etiquetas se envía al sistema de facturación para que los clientes puedan desglosar tus cargos de facturación según las etiquetas.

Tiempo máx. de inactividad

Configura Dataproc para que borre un clúster si está inactivo durante más de la cantidad de minutos especificada. Por lo general, los clústeres se borran directamente después de que finaliza una ejecución, pero la eliminación puede fallar en situaciones excepcionales. Para obtener más información, consulta Soluciona problemas relacionados con la eliminación de clústeres.

El valor predeterminado es de 30 minutos.

Omite la eliminación del clúster

Indica si se debe omitir la eliminación del clúster al final de una ejecución. Debes borrar los clústeres de forma manual. Solo debe usarse cuando se depura una ejecución fallida.

El valor predeterminado es False.

Habilita la integración de Stackdriver Logging

Habilita la integración de registro de Stackdriver.

El valor predeterminado es True.

Habilita la integración de Stackdriver Monitoring

Habilita la integración de Stackdriver Monitoring.

El valor predeterminado es True.

Habilita la puerta de enlace de componentes

Habilita la puerta de enlace de componentes para que acceda a las interfaces del clúster, como YARN ResourceManager y Spark HistoryServer.

El valor predeterminado es False.

Preferir IP externa

Cuando el sistema se ejecuta en Google Cloud en la misma red que el clúster, por lo general, usa la dirección IP interna cuando se comunica con el clúster. Para usar siempre la dirección IP externa, establece este valor en True.

El valor predeterminado es False.

Cómo crear una demora en la encuesta

Es la cantidad de segundos que se deben esperar después de crear un clúster para comenzar a sondear si se creó.

El valor predeterminado es de 60 segundos.

La configuración de sondeo controla la frecuencia con la que se sondea el estado del clúster cuando se crean y borran clústeres. Si tienes muchas canalizaciones programadas para ejecutarse al mismo tiempo, te recomendamos que cambies este parámetro de configuración.

Cómo crear jitter de encuestas

Es la cantidad máxima de jitter aleatorio, en segundos, que se agrega a la demora cuando se crea un clúster. Puedes usar esta propiedad para evitar muchas llamadas a la API simultáneas en Google Cloud cuando tienes muchas canalizaciones programadas para ejecutarse al mismo tiempo.

El valor predeterminado es de 20 segundos.

Cómo borrar la demora de la encuesta

Es la cantidad de segundos que se deben esperar después de borrar un clúster para comenzar a sondear si se borró.

El valor predeterminado es de 30 segundos.

Intervalo de sondeo

Es la cantidad de segundos que se espera entre sondeos para el estado del clúster.

El valor predeterminado es 2.

Propiedades de la interfaz web del perfil de Dataproc asignadas a propiedades JSON

Nombre de la propiedad de la IU del perfil de Dataproc Nombre de la propiedad JSON del perfil de Dataproc
Etiqueta de perfil name
Nombre del perfil label
Descripción description
ID del proyecto projectId
Clave de la cuenta de servicio del creador accountKey
Región region
Zona zone
Red network
ID del proyecto host de la red networkHostProjectId
Subred subnet
Cuenta de servicio de Runner serviceAccount
Cantidad de maestros masterNumNodes
Tipo de máquina principal masterMachineType
Núcleos principales masterCPUs
Memoria principal (GB) masterMemoryMB
Tamaño del disco principal (GB) masterDiskGB
Tipo de disco principal masterDiskType
Cantidad de trabajadores principales workerNumNodes
Cantidad de trabajadores secundarios secondaryWorkerNumNodes
Tipo de máquina de trabajo workerMachineType
Núcleos de trabajo workerCPUs
Memoria del trabajador (GB) workerMemoryMB
Tamaño del disco del trabajador (GB) workerDiskGB
Tipo de disco del trabajador workerDiskType
Metadatos clusterMetaData
Etiquetas de red networkTags
Habilita el inicio seguro secureBootEnabled
Habilita vTPM vTpmEnabled
Habilita la supervisión de integridad integrityMonitoringEnabled
Versión de la imagen imageVersion
URI de imagen personalizada customImageUri
Bucket de Cloud Storage gcsBucket
Nombre de la clave de encriptación encryptionKeyName
Política de ajuste de escala automático autoScalingPolicy
Acciones de inicialización initActions
Propiedades del clúster clusterProperties
Etiquetas clusterLabels
Tiempo máx. de inactividad idleTTL
Omite la eliminación del clúster skipDelete
Habilita la integración de Stackdriver Logging stackdriverLoggingEnabled
Habilita la integración de Stackdriver Monitoring stackdriverMonitoringEnabled
Habilita la puerta de enlace de componentes componentGatewayEnabled
Preferir IP externa preferExternalIP
Cómo crear una demora en la encuesta pollCreateDelay
Cómo crear jitter de encuestas pollCreateJitter
Cómo borrar la demora de la encuesta pollDeleteDelay
Intervalo de sondeo pollInterval

Prácticas recomendadas

Cuando crees un clúster estático para tus canalizaciones, consulta las prácticas recomendadas de configuración de clústeres.

¿Qué sigue?