Configura clústeres

En esta página, se describe cuándo usar clústeres estáticos de Dataproc en Cloud Data Fusion. También se describen las versiones compatibles y las configuraciones de clúster recomendadas.

Para obtener más información, consulta Administra un clúster.

Cuándo usar clústeres estáticos

De forma predeterminada, Cloud Data Fusion crea clústeres efímeros para cada canalización: crea un clúster al comienzo de la ejecución de la canalización y, luego, lo borra cuando la finaliza.

En las siguientes situaciones, no uses el valor predeterminado. En su lugar, usa un clúster estático:

  • Cuando el tiempo que se tarda en crear un clúster nuevo para cada canalización es engañoso para tu caso práctico.

  • Cuando tu organización requiere la creación del clúster para que se administre de manera centralizada. Por ejemplo, cuando desees aplicar ciertas políticas para todos los clústeres de Dataproc.

Para obtener más información, consulta Ejecuta una canalización en un clúster de Dataproc existente.

Compatibilidad de versiones

Problema: Es posible que la versión de tu entorno de Cloud Data Fusion no sea compatible con la versión de tu clúster de Dataproc.

Las siguientes versiones de Cloud Data Fusion son compatibles con las versiones correspondientes de Dataproc.

Versión de Cloud Data Fusion Versión de Dataproc
6.1 a 6.3* 1.3.x
6.4+ 1.3.x y 2.0.x

* Las versiones 6.1 a 6.3 de Cloud Data Fusion son compatibles con la versión 1.3 de Dataproc. No necesitas componentes adicionales para que sean compatibles. Cloud Data Fusion usa HDFS y Spark, que viene con la versión base de Cloud Data Fusion.

Prácticas recomendadas

Recomendación: Cuando creas un clúster estático para tus canalizaciones, usa la siguiente configuración.

Parámetros
yarn.nodemanager.delete.debug-delay-sec Conserva los registros de YARN.
Valor recomendado: 86400 (equivalente a un día)
yarn.nodemanager.pmem-check-enabled Permite YARN para verificar límites de memoria física y eliminar contenedores si van más allá de la memoria física.
Valor recomendado: false
yarn.nodemanager.vmem-check-enabled permite YARN para verificar límites de memoria virtual y eliminar contenedores si van más allá de la memoria física.
Valor recomendado: false.

¿Qué sigue?