Esta página se ha traducido con Cloud Translation API.

Propiedades del aprovisionador de Dataproc

El aprovisionador de Dataproc de Cloud Data Fusion llama a la API de Dataproc para crear y eliminar clústeres en tus proyectos de Google Cloud. Puedes configurar los clústeres en los ajustes del aprovisionador.

Para obtener más información sobre la compatibilidad entre las versiones de Cloud Data Fusion y Dataproc, consulta Compatibilidad de versiones.

Propiedades

Propiedad	Descripción
ID del proyecto	El proyecto Google Cloud en el que se crea el clúster de Dataproc. El proyecto debe tener habilitada la API de Dataproc.
Clave de cuenta de servicio del creador	La clave de cuenta de servicio proporcionada al aprovisionador debe tener permiso para acceder a las APIs de Dataproc y Compute Engine. Como la clave de tu cuenta es información sensible, te recomendamos que la proporciones mediante Secure Storage. Una vez que hayas creado la clave segura, podrás añadirla a un espacio de nombres o a un perfil de computación del sistema. En el caso de un perfil de cálculo de espacio de nombres, haz clic en el escudo y selecciona la clave segura. En el caso de un perfil de cálculo del sistema, introduce el nombre de la clave en el campo Clave de cuenta segura.
Region	Una ubicación geográfica en la que puedes alojar tus recursos, como los nodos de computación del clúster de Dataproc.
Zona	Un área de implementación aislada dentro de una región.
Red	La red de VPC de tu Google Cloud proyecto que se usará al crear un clúster de Dataproc.
ID del proyecto host de la red	Si la red se encuentra en otro proyecto, introduce el ID de ese proyecto. Google Cloud En el caso de una VPC compartida, introduce el ID del proyecto host en el que se encuentra la red.
Subred	La subred que se usará al crear clústeres. Debe estar en la red indicada y en la región en la que se encuentre la zona. Si se deja en blanco, se selecciona una subred en función de la red y la zona.
Cuenta de servicio de Runner	Nombre de la cuenta de servicio de las máquinas virtuales (VM) de Dataproc que se usan para ejecutar programas. Si se deja en blanco, se utiliza la cuenta de servicio predeterminada de Compute Engine.
Número de maestros	Número de nodos maestros del clúster. Estos nodos contienen YARN Resource Manager, HDFS NameNode y todos los controladores. Debe tener el valor 1 o 3. El valor predeterminado es 1.
Tipo de máquina principal	Tipo de máquina maestra que se va a usar. Seleccione uno de los siguientes tipos de máquina: n1 n2 n2d e2 En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2. En la versión 6.7.1, el valor predeterminado es n2. En la versión 6.7.0 y anteriores, el valor predeterminado es n1.
Núcleos maestros	Número de núcleos virtuales asignados a un nodo maestro. El valor predeterminado es 2.
Memoria maestra (GB)	Cantidad de memoria, en gigabytes, asignada a un nodo maestro. El valor predeterminado es 8 GB.
Tamaño del disco maestro (GB)	Tamaño del disco, en gigabytes, asignado a un nodo maestro. El valor predeterminado es 1000 GB.
Tipo de disco maestro	Tipo de disco de arranque de un nodo maestro: Disco persistente estándar Disco persistente SSD El valor predeterminado es Disco persistente estándar.
Tipo de máquina de trabajador	Tipo de máquina de trabajador que se va a usar. Seleccione uno de los siguientes tipos de máquina: n1 n2 n2d e2 En Cloud Data Fusion 6.7.2 y versiones posteriores, el valor predeterminado es e2. En la versión 6.7.1, el valor predeterminado es n2. En la versión 6.7.0 y anteriores, el valor predeterminado es n1.
Núcleos de trabajador	Número de núcleos virtuales asignados a un nodo de trabajador. El valor predeterminado es 2.
Memoria de los trabajadores (GB)	Cantidad de memoria, en gigabytes, asignada a un nodo de trabajador. El valor predeterminado es 8 GB.
Tamaño del disco de trabajo (GB)	Tamaño del disco, en gigabytes, asignado a un nodo de trabajador. El valor predeterminado es 1000 GB.
Tipo de disco de trabajador	Tipo de disco de arranque de un nodo de trabajo: Disco persistente estándar Disco persistente SSD El valor predeterminado es Disco persistente estándar.
Usar el autoescalado predefinido	Permite usar el autoescalado de Dataproc predefinido.
Número de trabajadores principales	Los nodos de trabajador contienen un YARN NodeManager y un HDFS DataNode. El valor predeterminado es 2.
Número de trabajadores secundarios	Los nodos de trabajador secundarios contienen un YARN NodeManager, pero no un HDFS DataNode. Normalmente, este valor es cero, a menos que una política de autoescalado requiera que sea mayor.
Política de autoescalado	Ruta del ID de la política de autoescalado o del URI del recurso. Para obtener información sobre cómo configurar y usar el autoescalado de Dataproc para cambiar el tamaño de los clústeres de forma automática y dinámica en función de las demandas de las cargas de trabajo, consulta Cuándo usar el autoescalado y Autoescalar clústeres de Dataproc.
Metadatos	Metadatos adicionales de las instancias que se ejecutan en tu clúster. Normalmente, puedes usarlo para hacer un seguimiento de la facturación y las devoluciones de cargo. Para obtener más información, consulta Metadatos de clúster.
Etiquetas de red	Asigna etiquetas de red para aplicar reglas de cortafuegos a los nodos específicos de un clúster. Las etiquetas de red deben empezar por una letra minúscula y pueden contener letras minúsculas, números y guiones. Las etiquetas deben terminar en una letra minúscula o un número.
Habilitar arranque seguro	Habilita el arranque seguro en las VMs de Dataproc. El valor predeterminado es False.
Habilitar vTPM	Habilita el módulo de plataforma segura virtual (vTPM) en las VMs de Dataproc. El valor predeterminado es False.
Habilitar la monitorización de integridad	Habilita la monitorización de integridad virtual en las VMs de Dataproc. El valor predeterminado es False.
Versión de la imagen	Versión de la imagen de Dataproc. Si se deja en blanco, se selecciona una automáticamente. Si la propiedad URI de imagen personalizada se deja en blanco, se ignora.
URI de imagen personalizada	URI de la imagen de Dataproc. Si se deja en blanco, se deduce de la propiedad Versión de la imagen.
Segmento de staging	Segmento de Cloud Storage que se usa para organizar las dependencias de las tareas y los archivos de configuración para ejecutar flujos de procesamiento en Dataproc.
Segmento temporal	Segmento de Cloud Storage que se usa para almacenar datos de clústeres y trabajos efímeros, como archivos de historial de Spark en Dataproc. Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.
Nombre de clave de cifrado	La clave de cifrado gestionada por el cliente (CMEK) que usa Dataproc.
Permisos de OAuth	Los permisos de OAuth 2.0 que podrías tener que solicitar para acceder a las APIs de Google, en función del nivel de acceso que necesites. Google Cloud Ámbito de la plataforma siempre se incluye. Esta propiedad se introdujo en la versión 6.9.2 de Cloud Data Fusion.
Acciones de inicialización	Lista de las secuencias de comandos que se ejecutarán durante la inicialización del clúster. Las acciones de inicialización deben colocarse en Cloud Storage.
Propiedades del clúster	Propiedades del clúster que anulan las propiedades de configuración predeterminadas de los servicios de Hadoop. Para obtener más información sobre los pares clave-valor aplicables, consulta Propiedades del clúster.
Etiquetas comunes	Etiquetas para organizar los clústeres y los trabajos de Dataproc que se están creando. Puedes etiquetar cada recurso y, después, filtrar los recursos por etiquetas. La información relacionada con las etiquetas se reenvía al sistema de facturación para que los clientes puedan desglosar los cargos de facturación por etiqueta.
Tiempo máximo de inactividad	Configura Dataproc para que elimine un clúster si está inactivo durante más de un número de minutos especificado. Los clústeres se suelen eliminar directamente después de que finalice una ejecución, pero en raras ocasiones puede que no se eliminen. Para obtener más información, consulta Solucionar problemas al eliminar clústeres. El valor predeterminado es 30 minutos.
Omitir eliminación de clúster	Indica si se debe omitir la eliminación del clúster al final de una ejecución. Debes eliminar los clústeres manualmente. Solo debe usarse al depurar una ejecución fallida. El valor predeterminado es False.
Habilitar la integración de Stackdriver Logging	Habilita la integración de Stackdriver Logging. El valor predeterminado es True.
Habilitar la integración de Stackdriver Monitoring	Habilita la integración de Stackdriver Monitoring. El valor predeterminado es True.
Habilitar pasarela de componentes	Habilita la pasarela de componentes para acceder a las interfaces del clúster, como YARN ResourceManager y Spark HistoryServer. El valor predeterminado es False.
Preferir IP externa	Si el sistema se ejecuta en Google Cloud en la misma red que el clúster, normalmente usa la dirección IP interna cuando se comunica con el clúster. Para usar siempre la dirección IP externa, asigna el valor True a este campo. El valor predeterminado es False.
Crear retraso de la encuesta	Número de segundos que se espera después de crear un clúster para empezar a sondear si se ha creado. El valor predeterminado es 60 segundos. Los ajustes de sondeo controlan la frecuencia con la que se sondea el estado del clúster al crear y eliminar clústeres. Si tienes muchos canales programados para ejecutarse al mismo tiempo, puede que quieras cambiar estos ajustes.
Crear fluctuación de la encuesta	Cantidad máxima de fluctuación aleatoria, en segundos, que se añade a la latencia al crear un clúster. Puedes usar esta propiedad para evitar muchas llamadas a la API simultáneas en Google Cloud cuando tengas muchas pipelines programadas para ejecutarse exactamente al mismo tiempo. El valor predeterminado es 20 segundos.
Retraso de eliminación de encuestas	Número de segundos que se deben esperar después de eliminar un clúster para empezar a sondeando para ver si se ha eliminado. El valor predeterminado es 30 segundos.
Intervalo de sondeo	Número de segundos que se deben esperar entre las comprobaciones del estado del clúster. El valor predeterminado es 2.

Propiedades de la interfaz web de perfil de Dataproc asignadas a propiedades JSON

Nombre de la propiedad de la interfaz de usuario del perfil de Dataproc	Nombre de la propiedad JSON del perfil de Dataproc
Etiqueta de perfil	`name`
Nombre de perfil	`label`
Descripción	`description`
ID del proyecto	`projectId`
Clave de cuenta de servicio del creador	`accountKey`
Region	`region`
Zona	`zone`
Red	`network`
ID del proyecto host de la red	`networkHostProjectId`
Subred	`subnet`
Cuenta de servicio de Runner	`serviceAccount`
Número de maestros	`masterNumNodes`
Tipo de máquina principal	`masterMachineType`
Núcleos maestros	`masterCPUs`
Memoria maestra (GB)	`masterMemoryMB`
Tamaño del disco maestro (GB)	`masterDiskGB`
Tipo de disco maestro	`masterDiskType`
Número de trabajadores principales	`workerNumNodes`
Número de trabajadores secundarios	`secondaryWorkerNumNodes`
Tipo de máquina de trabajador	`workerMachineType`
Núcleos de trabajador	`workerCPUs`
Memoria de los trabajadores (GB)	`workerMemoryMB`
Tamaño del disco de trabajo (GB)	`workerDiskGB`
Tipo de disco de trabajador	`workerDiskType`
Metadatos	`clusterMetaData`
Etiquetas de red	`networkTags`
Habilitar arranque seguro	`secureBootEnabled`
Habilitar vTPM	`vTpmEnabled`
Habilitar la monitorización de integridad	`integrityMonitoringEnabled`
Versión de la imagen	`imageVersion`
URI de imagen personalizada	`customImageUri`
Contenedor de Cloud Storage	`gcsBucket`
Nombre de clave de cifrado	`encryptionKeyName`
Política de autoescalado	`autoScalingPolicy`
Acciones de inicialización	`initActions`
Propiedades del clúster	`clusterProperties`
Etiquetas	`clusterLabels`
Tiempo máximo de inactividad	`idleTTL`
Omitir eliminación de clúster	`skipDelete`
Habilitar la integración de Stackdriver Logging	`stackdriverLoggingEnabled`
Habilitar la integración de Stackdriver Monitoring	`stackdriverMonitoringEnabled`
Habilitar pasarela de componentes	`componentGatewayEnabled`
Preferir IP externa	`preferExternalIP`
Crear retraso de la encuesta	`pollCreateDelay`
Crear fluctuación de la encuesta	`pollCreateJitter`
Retraso de eliminación de encuestas	`pollDeleteDelay`
Intervalo de sondeo	`pollInterval`

Prácticas recomendadas

Cuando crees un clúster estático para tus canalizaciones, consulta las prácticas recomendadas para configurar clústeres.

Siguientes pasos

Más información sobre cómo gestionar perfiles de cálculo