Propiedades del aprovisionador de Dataproc

El aprovisionador de Dataproc de Cloud Data Fusion llama a la API de Dataproc para crear y eliminar clústeres en tus proyectos de Google Cloud. Puedes configurar los clústeres en los ajustes del aprovisionador.

Para obtener más información sobre la compatibilidad entre las versiones de Cloud Data Fusion y Dataproc, consulta Compatibilidad de versiones.

Propiedades

Propiedad Descripción
ID del proyecto El proyecto Google Cloud en el que se crea el clúster de Dataproc. El proyecto debe tener habilitada la API de Dataproc.
Clave de cuenta de servicio del creador

La clave de cuenta de servicio proporcionada al aprovisionador debe tener permiso para acceder a las APIs de Dataproc y Compute Engine. Como la clave de tu cuenta es información sensible, te recomendamos que la proporciones mediante Secure Storage.

Una vez que hayas creado la clave segura, podrás añadirla a un espacio de nombres o a un perfil de computación del sistema. En el caso de un perfil de cálculo de espacio de nombres, haz clic en el escudo y selecciona la clave segura. En el caso de un perfil de cálculo del sistema, introduce el nombre de la clave en el campo Clave de cuenta segura.

Region Una ubicación geográfica en la que puedes alojar tus recursos, como los nodos de computación del clúster de Dataproc.
Zona Un área de implementación aislada dentro de una región.
Red La red de VPC de tu Google Cloud proyecto que se usará al crear un clúster de Dataproc.
ID del proyecto host de la red Si la red se encuentra en otro proyecto, introduce el ID de ese proyecto. Google Cloud En el caso de una VPC compartida, introduce el ID del proyecto host en el que se encuentra la red.
Subred La subred que se usará al crear clústeres. Debe estar en la red indicada y en la región en la que se encuentre la zona. Si se deja en blanco, se selecciona una subred en función de la red y la zona.
Cuenta de servicio de Runner Nombre de la cuenta de servicio de las máquinas virtuales (VM) de Dataproc que se usan para ejecutar programas. Si se deja en blanco, se utiliza la cuenta de servicio predeterminada de Compute Engine.
Número de maestros

Número de nodos maestros del clúster. Estos nodos contienen YARN Resource Manager, HDFS NameNode y todos los controladores. Debe tener el valor 1 o 3.

El valor predeterminado es 1.

Tipo de máquina principal

Tipo de máquina maestra que se va a usar. Seleccione uno de los siguientes tipos de máquina:

  • n1
  • n2
  • n2d
  • e2

En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2.

En la versión 6.7.1, el valor predeterminado es n2.

En la versión 6.7.0 y anteriores, el valor predeterminado es n1.

Núcleos maestros

Número de núcleos virtuales asignados a un nodo maestro.

El valor predeterminado es 2.

Memoria maestra (GB)

Cantidad de memoria, en gigabytes, asignada a un nodo maestro.

El valor predeterminado es 8 GB.

Tamaño del disco maestro (GB)

Tamaño del disco, en gigabytes, asignado a un nodo maestro.

El valor predeterminado es 1000 GB.

Tipo de disco maestro

Tipo de disco de arranque de un nodo maestro:

  • Disco persistente estándar
  • Disco persistente SSD

El valor predeterminado es Disco persistente estándar.

Tipo de máquina de trabajador

Tipo de máquina de trabajador que se va a usar. Seleccione uno de los siguientes tipos de máquina:

  • n1
  • n2
  • n2d
  • e2

En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2.

En la versión 6.7.1, el valor predeterminado es n2.

En la versión 6.7.0 y anteriores, el valor predeterminado es n1.

Núcleos de trabajador

Número de núcleos virtuales asignados a un nodo de trabajador.

El valor predeterminado es 2.

Memoria de los trabajadores (GB)

Cantidad de memoria, en gigabytes, asignada a un nodo de trabajador.

El valor predeterminado es 8 GB.

Tamaño del disco de trabajo (GB)

Tamaño del disco, en gigabytes, asignado a un nodo de trabajador.

El valor predeterminado es 1000 GB.

Tipo de disco de trabajador

Tipo de disco de arranque de un nodo de trabajo:

  • Disco persistente estándar
  • Disco persistente SSD

El valor predeterminado es Disco persistente estándar.

Usar el autoescalado predefinido Permite usar el autoescalado de Dataproc predefinido.
Número de trabajadores principales

Los nodos de trabajador contienen un YARN NodeManager y un HDFS DataNode.

El valor predeterminado es 2.

Número de trabajadores secundarios Los nodos de trabajador secundarios contienen un YARN NodeManager, pero no un HDFS DataNode. Normalmente, este valor es cero, a menos que una política de autoescalado requiera que sea mayor.
Política de autoescalado

Ruta del ID de la política de autoescalado o del URI del recurso.

Para obtener información sobre cómo configurar y usar el autoescalado de Dataproc para cambiar el tamaño de los clústeres de forma automática y dinámica en función de las demandas de las cargas de trabajo, consulta Cuándo usar el autoescalado y Autoescalar clústeres de Dataproc.

Metadatos Metadatos adicionales de las instancias que se ejecutan en tu clúster. Normalmente, puedes usarlo para hacer un seguimiento de la facturación y las devoluciones de cargo. Para obtener más información, consulta Metadatos de clúster.
Etiquetas de red Asigna etiquetas de red para aplicar reglas de cortafuegos a los nodos específicos de un clúster. Las etiquetas de red deben empezar por una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar en una letra minúscula o un número.
Habilitar arranque seguro

Habilita el arranque seguro en las VMs de Dataproc.

El valor predeterminado es False.

Habilitar vTPM

Habilita el módulo de plataforma segura virtual (vTPM) en las VMs de Dataproc.

El valor predeterminado es False.

Habilitar la monitorización de integridad

Habilita la monitorización de integridad virtual en las VMs de Dataproc.

El valor predeterminado es False.

Versión de la imagen Versión de la imagen de Dataproc. Si se deja en blanco, se selecciona una automáticamente. Si la propiedad URI de imagen personalizada se deja en blanco, se ignora.
URI de imagen personalizada URI de la imagen de Dataproc. Si se deja en blanco, se deduce de la propiedad Versión de la imagen.
Segmento de staging Segmento de Cloud Storage que se usa para organizar las dependencias de las tareas y los archivos de configuración para ejecutar flujos de procesamiento en Dataproc.
Segmento temporal

Segmento de Cloud Storage que se usa para almacenar datos de clústeres y trabajos efímeros, como archivos de historial de Spark en Dataproc.

Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.

Nombre de clave de cifrado La clave de cifrado gestionada por el cliente (CMEK) que usa Dataproc.
Permisos de OAuth

Los permisos de OAuth 2.0 que podrías tener que solicitar para acceder a las APIs de Google, en función del nivel de acceso que necesites. Google Cloud Ámbito de la plataforma siempre se incluye.

Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.

Acciones de inicialización Lista de las secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben colocarse en Cloud Storage.
Propiedades del clúster Propiedades del clúster que anulan las propiedades de configuración predeterminadas de los servicios de Hadoop. Para obtener más información sobre los pares clave-valor aplicables, consulta Propiedades del clúster.
Etiquetas comunes

Etiquetas para organizar los clústeres y los trabajos de Dataproc que se están creando.

Puedes etiquetar cada recurso y, después, filtrar los recursos por etiquetas. La información relacionada con las etiquetas se reenvía al sistema de facturación para que los clientes puedan desglosar los cargos de facturación por etiqueta.

Tiempo máximo de inactividad

Configura Dataproc para que elimine un clúster si está inactivo durante más de un número de minutos especificado. Los clústeres se suelen eliminar directamente después de que finalice una ejecución, pero en raras ocasiones puede que no se eliminen. Para obtener más información, consulta Solucionar problemas al eliminar clústeres.

El valor predeterminado es 30 minutos.

Omitir eliminación de clúster

Indica si se debe omitir la eliminación del clúster al final de una ejecución. Debes eliminar los clústeres manualmente. Solo debe usarse al depurar una ejecución fallida.

El valor predeterminado es False.

Habilitar la integración de Stackdriver Logging

Habilita la integración de Stackdriver Logging.

El valor predeterminado es True.

Habilitar la integración de Stackdriver Monitoring

Habilita la integración de Stackdriver Monitoring.

El valor predeterminado es True.

Habilitar pasarela de componentes

Habilita la pasarela de componentes para acceder a las interfaces del clúster, como YARN ResourceManager y Spark HistoryServer.

El valor predeterminado es False.

Preferir IP externa

Si el sistema se ejecuta en Google Cloud en la misma red que el clúster, normalmente usa la dirección IP interna cuando se comunica con el clúster. Para usar siempre la dirección IP externa, asigna el valor True a este campo.

El valor predeterminado es False.

Crear retraso de la encuesta

Número de segundos que se espera después de crear un clúster para empezar a sondear si se ha creado.

El valor predeterminado es 60 segundos.

Los ajustes de sondeo controlan la frecuencia con la que se sondea el estado del clúster al crear y eliminar clústeres. Si tienes muchos canales programados para ejecutarse al mismo tiempo, puede que quieras cambiar estos ajustes.

Crear fluctuación de la encuesta

Cantidad máxima de fluctuación aleatoria, en segundos, que se añade a la latencia al crear un clúster. Puedes usar esta propiedad para evitar muchas llamadas a la API simultáneas en Google Cloud cuando tengas muchas pipelines programadas para ejecutarse exactamente al mismo tiempo.

El valor predeterminado es 20 segundos.

Retraso de eliminación de encuestas

Número de segundos que se deben esperar después de eliminar un clúster para empezar a sondeando para ver si se ha eliminado.

El valor predeterminado es 30 segundos.

Intervalo de sondeo

Número de segundos que se deben esperar entre las comprobaciones del estado del clúster.

El valor predeterminado es 2.

Propiedades de la interfaz web de perfil de Dataproc asignadas a propiedades JSON

Nombre de la propiedad de la interfaz de usuario del perfil de Dataproc Nombre de la propiedad JSON del perfil de Dataproc
Etiqueta de perfil name
Nombre de perfil label
Descripción description
ID del proyecto projectId
Clave de cuenta de servicio del creador accountKey
Region region
Zona zone
Red network
ID del proyecto host de la red networkHostProjectId
Subred subnet
Cuenta de servicio de Runner serviceAccount
Número de maestros masterNumNodes
Tipo de máquina principal masterMachineType
Núcleos maestros masterCPUs
Memoria maestra (GB) masterMemoryMB
Tamaño del disco maestro (GB) masterDiskGB
Tipo de disco maestro masterDiskType
Número de trabajadores principales workerNumNodes
Número de trabajadores secundarios secondaryWorkerNumNodes
Tipo de máquina de trabajador workerMachineType
Núcleos de trabajador workerCPUs
Memoria de los trabajadores (GB) workerMemoryMB
Tamaño del disco de trabajo (GB) workerDiskGB
Tipo de disco de trabajador workerDiskType
Metadatos clusterMetaData
Etiquetas de red networkTags
Habilitar arranque seguro secureBootEnabled
Habilitar vTPM vTpmEnabled
Habilitar la monitorización de integridad integrityMonitoringEnabled
Versión de la imagen imageVersion
URI de imagen personalizada customImageUri
Contenedor de Cloud Storage gcsBucket
Nombre de clave de cifrado encryptionKeyName
Política de autoescalado autoScalingPolicy
Acciones de inicialización initActions
Propiedades del clúster clusterProperties
Etiquetas clusterLabels
Tiempo máximo de inactividad idleTTL
Omitir eliminación de clúster skipDelete
Habilitar la integración de Stackdriver Logging stackdriverLoggingEnabled
Habilitar la integración de Stackdriver Monitoring stackdriverMonitoringEnabled
Habilitar pasarela de componentes componentGatewayEnabled
Preferir IP externa preferExternalIP
Crear retraso de la encuesta pollCreateDelay
Crear fluctuación de la encuesta pollCreateJitter
Retraso de eliminación de encuestas pollDeleteDelay
Intervalo de sondeo pollInterval

Prácticas recomendadas

Cuando crees un clúster estático para tus canalizaciones, consulta las prácticas recomendadas para configurar clústeres.

Siguientes pasos