Propiedades del aprovisionador de Dataproc

El aprovisionador de Dataproc en Cloud Data Fusion llama a La API de Dataproc para crear y borrar clústeres en tu cuenta de Google Cloud proyectos. Puedes configurar los clústeres en la configuración del aprovisionador.

Para obtener más información sobre la compatibilidad entre las versiones de Cloud Data Fusion y las de Dataproc, consulta Compatibilidad de versiones.

Propiedades

Propiedad Descripción
ID del proyecto El proyecto de Google Cloud en el que se crea el clúster de Dataproc El proyecto debe tener la API de Dataproc habilitado.
Clave de la cuenta de servicio del creador

La clave de la cuenta de servicio que se proporciona al aprovisionador debe tener permiso para acceder a las APIs de Dataproc y Compute Engine. Debido a que la clave de tu cuenta es sensible, te recomendamos que la proporciones con Secure Storage.

Luego de crear la clave segura, puedes agregarla a un espacio de nombres o a una el perfil de procesamiento del sistema. Para un perfil de procesamiento de espacio de nombres, haz clic en el escudo y selecciona la clave segura. Para un perfil de cálculo del sistema, ingresa el nombre de la clave en la Clave de cuenta segura.

Región Una ubicación geográfica en la que puedes alojar recursos, como los nodos de procesamiento para el clúster de Dataproc.
Zona Un área de implementación aislada dentro de una región.
Red La red de VPC en el proyecto de Google Cloud que se usará cuando crees un clúster de Dataproc.
ID del proyecto host de la red Si la red reside en otro proyecto de Google Cloud, ingresa el ID de ese proyecto. Para una VPC compartida, ingresa el ID del proyecto host en el que reside la red.
Subred Es la subred que se usará cuando se creen clústeres. Debe estar dentro de la red determinada y en la región en la que se encuentra la zona. Si se deja en blanco, se crea una subred según la red y la zona.
Cuenta de servicio del ejecutor Es el nombre de la cuenta de servicio de las máquinas virtuales (VM) de Dataproc que se usan para ejecutar programas. Si se deja en blanco, la configuración predeterminada de servicio de Compute Engine.
Cantidad de instancias principales

La cantidad de nodos principales en el clúster. Estos nodos contienen las Administrador de recursos de YARN, HDFS NameNode y todos los controladores. Se debe configurar en 1 o 3.

La cantidad predeterminada es 1.

Tipo de máquina principal

El tipo de máquina principal que se usará. Selecciona una de las siguientes opciones: de máquina virtual:

  • n1
  • n2
  • n2d
  • e2

En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2

En la versión 6.7.1, el valor predeterminado es n2.

En las versiones 6.7.0 y anteriores, el valor predeterminado es n1.

Núcleos principales

Cantidad de núcleos virtuales asignados a un nodo principal.

El valor predeterminado es 2.

Memoria principal (GB)

Es la cantidad de memoria, en gigabytes, asignada a un nodo principal.

El valor predeterminado es 8 GB.

Tamaño del disco principal (GB)

Es el tamaño del disco, en gigabytes, asignado a un nodo principal.

El valor predeterminado es 1,000 GB.

Tipo de disco principal

Tipo de disco de arranque para un nodo principal:

  • Disco persistente estándar
  • Disco persistente SSD

La configuración predeterminada es Disco persistente estándar.

Tipo de máquina de trabajo

El tipo de máquina de trabajador que se usará. Selecciona uno de los siguientes tipos de máquinas:

  • n1
  • n2
  • n2d
  • e2

En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2

En la versión 6.7.1, el valor predeterminado es n2.

En las versiones 6.7.0 y anteriores, el valor predeterminado es n1.

Núcleos de trabajo

Cantidad de núcleos virtuales asignados a un nodo trabajador.

El valor predeterminado es 2.

Memoria de trabajador (GB)

Es la cantidad de memoria, en gigabytes, asignada a un nodo trabajador.

El valor predeterminado es 8 GB.

Tamaño del disco del trabajador (GB)

Tamaño del disco, en gigabytes, asignado a un nodo trabajador

El valor predeterminado es 1,000 GB.

Tipo de disco de trabajador

Tipo de disco de arranque para un nodo trabajador:

  • Disco persistente estándar
  • Disco persistente SSD

El valor predeterminado es Disco persistente estándar.

Cómo usar el ajuste de escala automático predefinido Habilita el uso del ajuste de escala automático predefinido de Dataproc.
Cantidad de trabajadores principales

Los nodos de trabajo contienen un NodeManager de YARN y un DataNode de HDFS.

El valor predeterminado es 2.

Cantidad de trabajadores secundarios Los nodos de trabajo secundarios contienen un NodeManager de YARN, pero no un DataNode de HDFS. Por lo general, está establecido en cero, a menos que se aplique una política de ajuste de escala automático requiere que sea mayor.
Política de ajuste de escala automático

Es la ruta de acceso para el ID de la política de escalamiento automático o el URI del recurso.

Para obtener información sobre cómo configurar y usar Dataproc ajuste de escala automático para cambiar el tamaño de los clústeres de forma automática y dinámica demandas de una carga de trabajo, consulta Cuándo usar el ajuste de escala automático y ajuste de escala automático de Dataproc clústeres.

Metadatos Metadatos adicionales para las instancias que se ejecutan en tu clúster. Por lo general, puedes usarlo para hacer un seguimiento de la facturación y las devoluciones de cargos. Para obtener más información, consulta Metadatos del clúster.
Etiquetas de red Asigna etiquetas de red para aplicar reglas de firewall a los nodos específicos de un clúster. Las etiquetas de red deben comenzar con una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar con una letra minúscula o un número.
Habilita el inicio seguro

Habilita el inicio seguro en las VMs de Dataproc.

El valor predeterminado es False.

Habilita el vTPM

Habilita el módulo de plataforma de confianza virtual (vTPM) en las VMs de Dataproc.

El valor predeterminado es False.

Habilita la supervisión de integridad

Habilita la supervisión de integridad virtual en la VMs de Dataproc.

El valor predeterminado es False.

Versión de la imagen La versión de la imagen de Dataproc. Si se deja en blanco, se seleccionará una automáticamente. Si la propiedad URI de imagen personalizada es si se deja en blanco, se ignorará esta propiedad.
URI de imagen personalizada El URI de la imagen de Dataproc Si se deja en blanco, se infiere de la propiedad Image version.
Bucket de etapa intermedia Bucket de Cloud Storage que se usa para almacenar en etapa de pruebas las dependencias de trabajos y los archivos de configuración para ejecutar canalizaciones en Dataproc.
Bucket temp.

Bucket de Cloud Storage que se usa para almacenar datos de trabajos y clústeres efímeros, como los archivos de historial de Spark en Dataproc.

Esta propiedad se introdujo en la versión de Cloud Data Fusion 6.9.2.

Nombre de la clave de encriptación La clave de encriptación administrada por el cliente (CMEK) que usa Dataproc.
Alcances de OAuth

Los permisos de OAuth 2.0 que podrías necesitar para acceder a las APIs de Google, según el nivel de acceso que necesites. Siempre se incluye el alcance de Google Cloud Platform.

Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.

Acciones de inicialización Una lista de secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben colocarse en Cloud Storage.
Propiedades del clúster Propiedades del clúster que anulan las propiedades de configuración predeterminadas de los servicios de Hadoop Para obtener más información sobre los pares clave-valor aplicables, consulta Propiedades del clúster.
Etiquetas comunes

Etiquetas para organizar los clústeres y trabajos de Dataproc que se está creando.

Puedes etiquetar cada recurso y, luego, filtrar los recursos por etiquetas. La información sobre las etiquetas se envía al sistema de facturación para que los clientes puedan desglosar tus cargos de facturación según las etiquetas.

Tiempo de inactividad máximo

Configura Dataproc para borrar un clúster si está inactivo mayor que la cantidad de minutos especificada. Por lo general, los clústeres se borran directamente después de que finaliza una ejecución, pero la eliminación puede fallar en situaciones excepcionales. Para más información, consulta Soluciona problemas relacionados con la eliminación clústeres.

El valor predeterminado es 30 minutos.

Omitir la eliminación del clúster

Indica si se debe omitir la eliminación del clúster al final de una ejecución. Debes borrar clústeres de forma manual. Solo debe usarse cuando se depura una ejecución fallida.

El valor predeterminado es False.

Habilita la integración de Stackdriver Logging

Habilitar la integración de Stackdriver Logging

El valor predeterminado es True.

Habilitar la integración de Stackdriver Monitoring

Habilita la integración de Stackdriver Monitoring.

El valor predeterminado es True.

Habilita la puerta de enlace de componentes

Habilita la puerta de enlace de componentes para que acceda a las interfaces del clúster, como YARN ResourceManager y Spark HistoryServer.

El valor predeterminado es False.

Preferir IP externa

Cuando el sistema se ejecuta en Google Cloud en la misma red que el clúster, por lo general, usa la dirección IP interna cuando se comunica con el clúster. Para usar siempre la dirección IP externa, establece este valor en True.

El valor predeterminado es False.

Cómo crear una demora en la encuesta

Es la cantidad de segundos que se deben esperar después de crear un clúster para comenzar a sondear si se creó.

La configuración predeterminada es de 60 segundos.

La configuración de sondeo controla la frecuencia con la que se sondea el estado del clúster cuando se crean y eliminan clústeres. Si tienes muchas canalizaciones programadas para ejecutarse al mismo tiempo, te recomendamos que cambies este parámetro de configuración.

Cómo crear jitter de encuestas

Es la cantidad máxima de jitter aleatorio, en segundos, que se agrega a la demora cuando se crea un clúster. Puedes usar esta propiedad para evitar que muchas de llamadas simultáneas a la API en Google Cloud canalizaciones programadas para ejecutarse exactamente al mismo tiempo.

El valor predeterminado es de 20 segundos.

Cómo borrar la demora de la encuesta

La cantidad de segundos que se debe esperar después de borrar un clúster para comenzar un sondeo para ver si se borró el clúster.

El valor predeterminado es de 30 segundos.

Intervalo de sondeo

Es la cantidad de segundos que se espera entre sondeos para el estado del clúster.

El valor predeterminado es 2.

Propiedades de la interfaz web del perfil de Dataproc asignadas a propiedades JSON

Nombre de la propiedad de la IU del perfil de Dataproc Nombre de la propiedad JSON del perfil de Dataproc
Etiqueta de perfil name
Nombre del perfil label
Descripción description
ID del proyecto projectId
Clave de la cuenta de servicio del creador accountKey
Región region
Zona zone
Red network
ID del proyecto host de la red networkHostProjectId
Subred subnet
Cuenta de servicio del ejecutor serviceAccount
Cantidad de instancias principales masterNumNodes
Tipo de máquina principal masterMachineType
Núcleos principales masterCPUs
Memoria principal (GB) masterMemoryMB
Tamaño del disco principal (GB) masterDiskGB
Tipo de disco principal masterDiskType
Cantidad de trabajadores principales workerNumNodes
Cantidad de trabajadores secundarios secondaryWorkerNumNodes
Tipo de máquina de trabajador workerMachineType
Núcleos de trabajador workerCPUs
Memoria de trabajador (GB) workerMemoryMB
Tamaño del disco del trabajador (GB) workerDiskGB
Tipo de disco de trabajador workerDiskType
Metadatos clusterMetaData
Etiquetas de red networkTags
Habilitar el inicio seguro secureBootEnabled
Habilita el vTPM vTpmEnabled
Habilita la supervisión de integridad integrityMonitoringEnabled
Versión de la imagen imageVersion
URI de imagen personalizada customImageUri
Bucket de Cloud Storage gcsBucket
Nombre de la clave de encriptación encryptionKeyName
Política de ajuste de escala automático autoScalingPolicy
Acciones de inicialización initActions
Propiedades del clúster clusterProperties
Etiquetas clusterLabels
Tiempo máx. de inactividad idleTTL
Omitir la eliminación del clúster skipDelete
Habilita la integración de Stackdriver Logging stackdriverLoggingEnabled
Habilitar la integración de Stackdriver Monitoring stackdriverMonitoringEnabled
Habilita la puerta de enlace de componentes componentGatewayEnabled
Preferir IP externa preferExternalIP
Crear un retraso de la encuesta pollCreateDelay
Cómo crear un Jitter de encuesta pollCreateJitter
Cómo borrar la demora de la encuesta pollDeleteDelay
Intervalo de sondeo pollInterval

Prácticas recomendadas

Cuando crees un clúster estático para tus canalizaciones, consulta el Recomendaciones para la configuración del clúster.

¿Qué sigue?