Configuración del clúster

En esta página, se describe cuándo usar clústeres estáticos de Dataproc en Cloud Data Fusion. También se describen las versiones compatibles y las configuraciones de clúster recomendadas.

Cuándo reutilizar clústeres

A partir de Cloud Data Fusion 6.5.0, puedes volver a usar clústeres de Dataproc entre las ejecuciones para mejorar el tiempo de procesamiento. Reutiliza los clústeres para disminuir el tiempo que lleva iniciar trabajos cuando hay varios trabajos que ocurren uno tras otro. Para obtener más información, consulta Reutiliza clústeres de Dataproc.

Cuándo usar clústeres estáticos

Recomendación: Prueba volver a usar los clústeres para mejorar el tiempo de inicio antes de intentar usar clústeres estáticos.

De forma predeterminada, Cloud Data Fusion crea clústeres efímeros para cada canalización: crea un clúster al comienzo de la ejecución de la canalización y lo borra después de que se completa la ejecución de la canalización.

En los siguientes casos, no uses el valor predeterminado. En su lugar, usa un clúster estático:

  • Cuando el tiempo que lleva crear un clúster nuevo para cada canalización es inaccesible en tu caso de uso.

  • Cuando tu organización requiere que la creación del clúster se administre de forma centralizada. Por ejemplo, cuando desees aplicar ciertas políticas en todos los clústeres de Dataproc.

Para obtener más información, consulta Ejecuta una canalización en un clúster de Dataproc existente.

Cuándo usar el ajuste de escala automático

Recomendación: Usa el ajuste de escala automático predefinido de Cloud Data Fusion o tu propia política de ajuste de escala automático a fin de automatizar la administración de recursos de clústeres para el procesamiento en canalizaciones por lotes.

Si usas el perfil de procesamiento predeterminado para ejecutar una canalización grande, es posible que la canalización no se ejecute con un rendimiento óptimo. También es útil cuando no estás seguro de los requisitos de tamaño de clúster adecuados para tu canalización.

En la versión 6.6 y posteriores de Cloud Data Fusion, puedes usar el ajuste de escala automático predefinido de Cloud Data Fusion para automatizar la administración de recursos de clústeres. El perfil de procesamiento de ajuste de escala automático listo para usar puede ser suficiente para tus canalizaciones, pero si necesitas más control, puedes definir tu propia política de ajuste de escala automático.

En cualquier versión compatible, puedes crear tu propia política de ajuste de escala automático para establecer la cantidad máxima de trabajadores. Para obtener más información sobre cómo crear una política de ajuste de escala automático, consulta el Clústeres de ajuste de escala automático.

Usa el ajuste de escala automático predefinido en Cloud Data Fusion

Puedes usar el ajuste de escala automático predefinido para aumentar los nodos trabajadores según la carga de trabajo de tu canalización en las versiones 6.6 y posteriores. Esto solo está disponible para canalizaciones por lotes.

Opción 1: Usa el perfil de ajuste de escala automático de Cloud Data Fusion

En las instancias de Cloud Data Fusion que se ejecutan en la versión 6.6 y posteriores, tu instancia viene con un perfil llamado Autoscaling Dataproc, que es un perfil de Dataproc listo para usar en el que ya se habilitó el ajuste de escala automático predefinido. Esto es similar al perfil que creaste con anterioridad en la opción 3, excepto que el tipo de máquina de trabajador es n2.

  1. En Google Cloud Console, ve a la página Instancias de Cloud Data Fusion.
  2. Haz clic en Ver instancia para abrir una instancia en la IU de Cloud Data Fusion.
  3. Para ir a la página de canalización implementada, haga clic en List > Implementado.
  4. Haz clic en Configurar > Compute.
  5. Selecciona el perfil llamado Autoscaling Dataproc.

Opción 2: Habilita una política de ajuste de escala automático predefinida mediante la personalización de un perfil

Para habilitar el ajuste de escala automático predefinido en el perfil predeterminado, sigue estos pasos:

  1. En Google Cloud Console, ve a la página Instancias de Cloud Data Fusion.
  2. Haz clic en Ver instancia para abrir una instancia en la IU de Cloud Data Fusion.
  3. Para ir a la página de canalización implementada, haga clic en List > Implementado.
  4. Haz clic en Configurar.
  5. Haz clic en Personalizar en el perfil que elijas.
  6. Expande la sección Cantidad de trabajadores del clúster.
  7. Haz clic en el botón de activación Usar el ajuste de escala automático predefinido.
  8. Haz clic en Listo y, luego, en Guardar.

La próxima vez que tu canalización se ejecute, el trabajo de Dataproc usará la política de ajuste de escala automático predefinida de Cloud Data Fusion.

Cuando habilitas el ajuste de escala automático predefinido:

  • No se consideran las propiedades Number of primary workers, Number of secondary workers ni Autoscaling policy.
  • La configuración y el tipo de máquina del trabajador son los mismos que el perfil elegido.
  • Si desactivas el botón de activación Usar el ajuste de escala automático predefinido, se inhabilita el ajuste de escala automático predefinido y, luego, se ejecuta el comportamiento original del perfil.

Argumento del entorno de ejecución:

El comportamiento anterior se puede lograr si ingresas el siguiente valor de Clave y Valor en los argumentos del entorno de ejecución: system.profile.properties.enablePredefinedAutoScaling = true.

Opción 3: Habilita una política de ajuste de escala automático predefinida en un perfil de procesamiento nuevo

Puedes hacer clic en el botón de activación Usar el ajuste de escala automático predefinido cuando crees un nuevo perfil de aprovisionador de Dataproc. Puedes usar este perfil en diferentes canalizaciones y tener más control sobre el tipo de máquina del trabajador y otras propiedades.

  1. En Google Cloud Console, ve a la página Instancias de Cloud Data Fusion.
  2. Haz clic en Ver instancia para abrir una instancia en la IU de Cloud Data Fusion.
  3. Puedes crear el perfil desde el alcance del sistema o el alcance del usuario:

    1. (Opcional) Para el alcance del sistema: Haz clic en System Admin > Configuración > Perfiles de procesamiento del sistema > Crear nuevo perfil.
    2. (Opcional) Para el alcance del usuario: Haz clic en Menú >Administrador de espacios de nombres > Crear perfil.

    Se abrirá una página de aprovisionadores.

  4. Haz clic en Dataproc.

  5. Expande la sección Cantidad de trabajadores del clúster.

  6. Haz clic en el botón de activación Usar el ajuste de escala automático predefinido.

  7. Ingresa los demás detalles y haz clic en Crear.

Para aplicar este perfil a tu canalización, abre la canalización en la página Studio, haz clic en Configure > Compute y selecciona el perfil. Puedes establecer el perfil como predeterminado.

Detalles adicionales

En la página Configuración de procesamiento, en la que puedes ver una lista de perfiles, se mostrará la columna Total de núcleos, que tiene el máximo de CPU virtuales que el perfil puede escalar, como Up to 84.

Compatibilidad de versiones

Problema: Es posible que la versión del entorno de Cloud Data Fusion no sea compatible con la versión del clúster de Dataproc.

Recomendación: Actualiza a la versión 6.4 o posterior de Cloud Data Fusion y usa una de las versiones compatibles de Dataproc.

Las versiones de Cloud Data Fusion anteriores a la 6.4 solo son compatibles con versiones no compatibles de Dataproc. Dataproc no proporciona actualizaciones ni asistencia para los clústeres creados con estas versiones. Aunque puedes continuar ejecutando un clúster creado con una versión no compatible, se recomienda reemplazar el clúster por uno nuevo creado con una versión compatible.

Versión de Cloud Data Fusion Versión de Dataproc
6.1 a 6.3* 1.3.x
6.4 o superior 1.3.x y 2.0.x

* Las versiones 6.1 a 6.3 de Cloud Data Fusion son compatibles con Dataproc versión 1.3. No necesitas componentes adicionales para que sean compatibles. Cloud Data Fusion usa HDFS y Spark, que viene con la versión base de Cloud Data Fusion.

Prácticas recomendadas

Configuraciones

Recomendación: Cuando creas un clúster estático para tus canalizaciones, usa la siguiente configuración.

Parámetros
yarn.nodemanager.delete.debug-delay-sec Conserva los registros de YARN.
Valor recomendado: 86400 (equivalente a un día).
yarn.nodemanager.pmem-check-enabled Permite que YARN verifique los límites de memoria física y elimine los contenedores si se exceden de la memoria física.
Valor recomendado: false
yarn.nodemanager.vmem-check-enabled Permite que YARN verifique los límites de memoria virtual y finalice los contenedores si superan la memoria física.
Valor recomendado: false.