El aprovisionador de Dataproc en Cloud Data Fusion llama a La API de Dataproc para crear y borrar clústeres en tu cuenta de Google Cloud proyectos. Puedes configurar los clústeres en la configuración del aprovisionador.
Para obtener más información sobre la compatibilidad entre las versiones de Cloud Data Fusion y las de Dataproc, consulta Compatibilidad de versiones.
Propiedades
Propiedad | Descripción |
---|---|
ID del proyecto | El proyecto de Google Cloud en el que se crea el clúster de Dataproc El proyecto debe tener la API de Dataproc habilitado. |
Clave de la cuenta de servicio del creador | La clave de la cuenta de servicio que se proporciona al aprovisionador debe tener permiso para acceder a las APIs de Dataproc y Compute Engine. Debido a que la clave de tu cuenta es sensible, te recomendamos que la proporciones con Secure Storage. Luego de crear la clave segura, puedes agregarla a un espacio de nombres o a una el perfil de procesamiento del sistema. Para un perfil de procesamiento de espacio de nombres, haz clic en el escudo y selecciona la clave segura. Para un perfil de cálculo del sistema, ingresa el nombre de la clave en la Clave de cuenta segura. |
Región | Una ubicación geográfica en la que puedes alojar recursos, como los nodos de procesamiento para el clúster de Dataproc. |
Zona | Un área de implementación aislada dentro de una región. |
Red | La red de VPC en el proyecto de Google Cloud que se usará cuando crees un clúster de Dataproc. |
ID del proyecto host de la red | Si la red reside en otro proyecto de Google Cloud, ingresa el ID de ese proyecto. Para una VPC compartida, ingresa el ID del proyecto host en el que reside la red. |
Subred | Es la subred que se usará cuando se creen clústeres. Debe estar dentro de la red determinada y en la región en la que se encuentra la zona. Si se deja en blanco, se crea una subred según la red y la zona. |
Cuenta de servicio del ejecutor | Es el nombre de la cuenta de servicio de las máquinas virtuales (VM) de Dataproc que se usan para ejecutar programas. Si se deja en blanco, la configuración predeterminada de servicio de Compute Engine. |
Cantidad de instancias principales | La cantidad de nodos principales en el clúster. Estos nodos contienen las Administrador de recursos de YARN, HDFS NameNode y todos los controladores. Se debe configurar en 1 o 3. La cantidad predeterminada es 1. |
Tipo de máquina principal | El tipo de máquina principal que se usará. Selecciona una de las siguientes opciones: de máquina virtual:
En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2 En la versión 6.7.1, el valor predeterminado es n2. En las versiones 6.7.0 y anteriores, el valor predeterminado es n1. |
Núcleos principales | Cantidad de núcleos virtuales asignados a un nodo principal. El valor predeterminado es 2. |
Memoria principal (GB) | Es la cantidad de memoria, en gigabytes, asignada a un nodo principal. El valor predeterminado es 8 GB. |
Tamaño del disco principal (GB) | Es el tamaño del disco, en gigabytes, asignado a un nodo principal. El valor predeterminado es 1,000 GB. |
Tipo de disco principal | Tipo de disco de arranque para un nodo principal:
La configuración predeterminada es Disco persistente estándar. |
Tipo de máquina de trabajo | El tipo de máquina de trabajador que se usará. Selecciona uno de los siguientes tipos de máquinas:
En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2 En la versión 6.7.1, el valor predeterminado es n2. En las versiones 6.7.0 y anteriores, el valor predeterminado es n1. |
Núcleos de trabajo | Cantidad de núcleos virtuales asignados a un nodo trabajador. El valor predeterminado es 2. |
Memoria de trabajador (GB) | Es la cantidad de memoria, en gigabytes, asignada a un nodo trabajador. El valor predeterminado es 8 GB. |
Tamaño del disco del trabajador (GB) | Tamaño del disco, en gigabytes, asignado a un nodo trabajador El valor predeterminado es 1,000 GB. |
Tipo de disco de trabajador | Tipo de disco de arranque para un nodo trabajador:
El valor predeterminado es Disco persistente estándar. |
Cómo usar el ajuste de escala automático predefinido | Habilita el uso del ajuste de escala automático predefinido de Dataproc. |
Cantidad de trabajadores principales | Los nodos de trabajo contienen un NodeManager de YARN y un DataNode de HDFS. El valor predeterminado es 2. |
Cantidad de trabajadores secundarios | Los nodos de trabajo secundarios contienen un NodeManager de YARN, pero no un DataNode de HDFS. Por lo general, está establecido en cero, a menos que se aplique una política de ajuste de escala automático requiere que sea mayor. |
Política de ajuste de escala automático | Es la ruta de acceso para el ID de la política de escalamiento automático o el URI del recurso. Para obtener información sobre cómo configurar y usar Dataproc ajuste de escala automático para cambiar el tamaño de los clústeres de forma automática y dinámica demandas de una carga de trabajo, consulta Cuándo usar el ajuste de escala automático y ajuste de escala automático de Dataproc clústeres. |
Metadatos | Metadatos adicionales para las instancias que se ejecutan en tu clúster. Por lo general, puedes usarlo para hacer un seguimiento de la facturación y las devoluciones de cargos. Para obtener más información, consulta Metadatos del clúster. |
Etiquetas de red | Asigna etiquetas de red para aplicar reglas de firewall a los nodos específicos de un clúster. Las etiquetas de red deben comenzar con una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar con una letra minúscula o un número. |
Habilita el inicio seguro | Habilita el inicio seguro en las VMs de Dataproc. El valor predeterminado es False. |
Habilita el vTPM | Habilita el módulo de plataforma de confianza virtual (vTPM) en las VMs de Dataproc. El valor predeterminado es False. |
Habilita la supervisión de integridad | Habilita la supervisión de integridad virtual en la VMs de Dataproc. El valor predeterminado es False. |
Versión de la imagen | La versión de la imagen de Dataproc. Si se deja en blanco, se seleccionará una automáticamente. Si la propiedad URI de imagen personalizada es si se deja en blanco, se ignorará esta propiedad. |
URI de imagen personalizada | El URI de la imagen de Dataproc Si se deja en blanco, se infiere de la propiedad Image version. |
Bucket de etapa intermedia | Bucket de Cloud Storage que se usa para almacenar en etapa de pruebas las dependencias de trabajos y los archivos de configuración para ejecutar canalizaciones en Dataproc. |
Bucket temp. | Bucket de Cloud Storage que se usa para almacenar datos de trabajos y clústeres efímeros, como los archivos de historial de Spark en Dataproc. Esta propiedad se introdujo en la versión de Cloud Data Fusion 6.9.2. |
Nombre de la clave de encriptación | La clave de encriptación administrada por el cliente (CMEK) que usa Dataproc. |
Alcances de OAuth | Los permisos de OAuth 2.0 que podrías necesitar para acceder a las APIs de Google, según el nivel de acceso que necesites. Siempre se incluye el alcance de Google Cloud Platform. Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion. |
Acciones de inicialización | Una lista de secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben colocarse en Cloud Storage. |
Propiedades del clúster | Propiedades del clúster que anulan las propiedades de configuración predeterminadas de los servicios de Hadoop Para obtener más información sobre los pares clave-valor aplicables, consulta Propiedades del clúster. |
Etiquetas comunes | Etiquetas para organizar los clústeres y trabajos de Dataproc que se está creando. Puedes etiquetar cada recurso y, luego, filtrar los recursos por etiquetas. La información sobre las etiquetas se envía al sistema de facturación para que los clientes puedan desglosar tus cargos de facturación según las etiquetas. |
Tiempo de inactividad máximo | Configura Dataproc para borrar un clúster si está inactivo mayor que la cantidad de minutos especificada. Por lo general, los clústeres se borran directamente después de que finaliza una ejecución, pero la eliminación puede fallar en situaciones excepcionales. Para más información, consulta Soluciona problemas relacionados con la eliminación clústeres. El valor predeterminado es 30 minutos. |
Omitir la eliminación del clúster | Indica si se debe omitir la eliminación del clúster al final de una ejecución. Debes borrar clústeres de forma manual. Solo debe usarse cuando se depura una ejecución fallida. El valor predeterminado es False. |
Habilita la integración de Stackdriver Logging | Habilitar la integración de Stackdriver Logging El valor predeterminado es True. |
Habilitar la integración de Stackdriver Monitoring | Habilita la integración de Stackdriver Monitoring. El valor predeterminado es True. |
Habilita la puerta de enlace de componentes | Habilita la puerta de enlace de componentes para que acceda a las interfaces del clúster, como YARN ResourceManager y Spark HistoryServer. El valor predeterminado es False. |
Preferir IP externa | Cuando el sistema se ejecuta en Google Cloud en la misma red que el clúster, por lo general, usa la dirección IP interna cuando se comunica con el clúster. Para usar siempre la dirección IP externa, establece este valor en True. El valor predeterminado es False. |
Cómo crear una demora en la encuesta | Es la cantidad de segundos que se deben esperar después de crear un clúster para comenzar a sondear si se creó. La configuración predeterminada es de 60 segundos. La configuración de sondeo controla la frecuencia con la que se sondea el estado del clúster cuando se crean y eliminan clústeres. Si tienes muchas canalizaciones programadas para ejecutarse al mismo tiempo, te recomendamos que cambies este parámetro de configuración. |
Cómo crear jitter de encuestas | Es la cantidad máxima de jitter aleatorio, en segundos, que se agrega a la demora cuando se crea un clúster. Puedes usar esta propiedad para evitar que muchas de llamadas simultáneas a la API en Google Cloud canalizaciones programadas para ejecutarse exactamente al mismo tiempo. El valor predeterminado es de 20 segundos. |
Cómo borrar la demora de la encuesta | La cantidad de segundos que se debe esperar después de borrar un clúster para comenzar un sondeo para ver si se borró el clúster. El valor predeterminado es de 30 segundos. |
Intervalo de sondeo | Es la cantidad de segundos que se espera entre sondeos para el estado del clúster. El valor predeterminado es 2. |
Propiedades de la interfaz web del perfil de Dataproc asignadas a propiedades JSON
Nombre de la propiedad de la IU del perfil de Dataproc | Nombre de la propiedad JSON del perfil de Dataproc |
---|---|
Etiqueta de perfil | name |
Nombre del perfil | label |
Descripción | description |
ID del proyecto | projectId |
Clave de la cuenta de servicio del creador | accountKey |
Región | region |
Zona | zone |
Red | network |
ID del proyecto host de la red | networkHostProjectId |
Subred | subnet |
Cuenta de servicio del ejecutor | serviceAccount |
Cantidad de instancias principales | masterNumNodes |
Tipo de máquina principal | masterMachineType |
Núcleos principales | masterCPUs |
Memoria principal (GB) | masterMemoryMB |
Tamaño del disco principal (GB) | masterDiskGB |
Tipo de disco principal | masterDiskType |
Cantidad de trabajadores principales | workerNumNodes |
Cantidad de trabajadores secundarios | secondaryWorkerNumNodes |
Tipo de máquina de trabajador | workerMachineType |
Núcleos de trabajador | workerCPUs |
Memoria de trabajador (GB) | workerMemoryMB |
Tamaño del disco del trabajador (GB) | workerDiskGB |
Tipo de disco de trabajador | workerDiskType |
Metadatos | clusterMetaData |
Etiquetas de red | networkTags |
Habilitar el inicio seguro | secureBootEnabled |
Habilita el vTPM | vTpmEnabled |
Habilita la supervisión de integridad | integrityMonitoringEnabled |
Versión de la imagen | imageVersion |
URI de imagen personalizada | customImageUri |
Bucket de Cloud Storage | gcsBucket |
Nombre de la clave de encriptación | encryptionKeyName |
Política de ajuste de escala automático | autoScalingPolicy |
Acciones de inicialización | initActions |
Propiedades del clúster | clusterProperties |
Etiquetas | clusterLabels |
Tiempo máx. de inactividad | idleTTL |
Omitir la eliminación del clúster | skipDelete |
Habilita la integración de Stackdriver Logging | stackdriverLoggingEnabled |
Habilitar la integración de Stackdriver Monitoring | stackdriverMonitoringEnabled |
Habilita la puerta de enlace de componentes | componentGatewayEnabled |
Preferir IP externa | preferExternalIP |
Crear un retraso de la encuesta | pollCreateDelay |
Cómo crear un Jitter de encuesta | pollCreateJitter |
Cómo borrar la demora de la encuesta | pollDeleteDelay |
Intervalo de sondeo | pollInterval |
Prácticas recomendadas
Cuando crees un clúster estático para tus canalizaciones, consulta el Recomendaciones para la configuración del clúster.
¿Qué sigue?
- Obtén más información sobre cómo administrar perfiles de procesamiento.