Configuración del clúster

En esta página, se describe cuándo usar clústeres estáticos de Dataproc en Cloud Data Fusion, las versiones compatibles y las configuraciones de clúster recomendadas.

Cuándo volver a usar clústeres

A partir de Cloud Data Fusion 6.5.0, puedes volver a usar los clústeres de Dataproc entre ejecuciones para mejorar el tiempo de procesamiento. Puedes reutilizar clústeres para disminuir el tiempo que lleva iniciar trabajos cuando tienes varios trabajos que se realizan uno tras otro. Para obtener más información, consulta Vuelve a usar clústeres de Dataproc.

Cuándo usar clústeres estáticos

Recomendación: Intenta reutilizar clústeres para mejorar el tiempo de inicio antes de intentar usar clústeres estáticos.

Según la configuración predeterminada, Cloud Data Fusion crea clústeres efímeros para cada canalización. Crea un clúster al comienzo de la ejecución de la canalización y lo borra después de que se completa la ejecución.

En las siguientes situaciones, no uses el valor predeterminado. En su lugar, usa un clúster estático:

  • Cuando el tiempo que lleva crear un clúster nuevo para cada canalización es adecuado para tu caso de uso.

  • Cuando tu organización requiere que la creación de clústeres se administre de forma centralizada. Por ejemplo, cuando deseas aplicar ciertas políticas para todos los clústeres de Dataproc.

Para usar un clúster estático, debes establecer la siguiente propiedad en el clúster de Dataproc:

dataproc:dataproc.conscrypt.provider.enable=false

Para obtener más información, consulta Ejecuta una canalización en un clúster de Dataproc existente.

Cuándo usar el ajuste de escala automático

Recomendación: Usa el ajuste de escala automático predefinido de Cloud Data Fusion o tu propia política de ajuste de escala automático para automatizar la administración de recursos de clústeres y procesarlos en canalizaciones por lotes.

No se recomienda el ajuste de escala automático para reducir la escala. Si quieres obtener información para reducir costos durante períodos de baja actividad, consulta los siguientes documentos:

Si usas el perfil de procesamiento predeterminado para ejecutar una canalización grande, es posible que la canalización no se ejecute con un rendimiento óptimo. También es útil cuando no estás seguro de los requisitos de tamaño de clúster adecuados para tu canalización.

En Cloud Data Fusion 6.6 y versiones posteriores, puedes usar el ajuste de escala automático predefinido de Cloud Data Fusion para automatizar la administración de recursos de clústeres. El perfil de procesamiento de ajuste de escala automático listo para usar puede ser suficiente para tus canalizaciones, pero, si necesitas más control, puedes definir tu propia política de ajuste de escala automático.

En cualquier versión compatible, puedes crear tu propia política de ajuste de escala automático para establecer la cantidad máxima de trabajadores. A partir de la versión 6.10.0 de Cloud Data Fusion, las instancias usan el perfil de Dataproc con ajuste de escala automático de forma predeterminada para clústeres efímeros. Para obtener más información sobre cómo crear una política de ajuste de escala automático, consulta Ajuste de escala automático de clústeres.

Usa el ajuste de escala automático predefinido en Cloud Data Fusion

Puedes usar el ajuste de escala automático predefinido para aumentar los nodos trabajadores según la carga de trabajo de tu canalización en las versiones 6.6 y posteriores. El ajuste de escala automático predefinido solo está disponible para las canalizaciones por lotes.

Opción 1: Usa el perfil de ajuste de escala automático de Cloud Data Fusion

En las instancias de Cloud Data Fusion que se ejecutan en la versión 6.6.0 y posteriores, la instancia incluye un perfil llamado ajuste de escala automático Dataproc, que es un perfil de Dataproc listo para usar en el que el ajuste de escala automático predefinido ya está habilitado. Es similar al perfil creado con anterioridad en la opción 3, excepto que, en la versión 6.6.0 y las instancias actualizadas desde la versión 6.6.0, el tipo de máquina del trabajador es n2.

  1. En la consola de Google Cloud, ve a la página Instancias de Cloud Data Fusion.
  2. Haz clic en Ver instancia para abrir una instancia en la interfaz web de Cloud Data Fusion.
  3. Haz clic en Lista > Implementada para ir a la página de la canalización implementada.
  4. Haz clic en Configurar > Procesamiento.
  5. Selecciona el perfil llamado Ajuste de escala automático de Dataproc.

Opción 2: Habilita una política de ajuste de escala automático predefinida mediante la personalización de un perfil

Para habilitar el ajuste de escala automático predefinido en el perfil predeterminado, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Instancias de Cloud Data Fusion.
  2. Haz clic en Ver instancia para abrir una instancia en la interfaz web de Cloud Data Fusion.
  3. Haz clic en Lista > Implementada para ir a la página de la canalización implementada.
  4. Haz clic en Configurar.
  5. Haz clic en Personalizar en el perfil que elijas.
  6. Expande la sección Cantidad de trabajadores del clúster.
  7. Haz clic en el botón de activación Usar el ajuste de escala automático predefinido.
  8. Haz clic en Listo y, luego, en Guardar.

La próxima vez que se ejecute tu canalización, el trabajo de Dataproc usará la política de ajuste de escala automático predefinida de Cloud Data Fusion.

Cuando habilitas el ajuste de escala automático predefinido, ocurre lo siguiente:

  • No se consideran las propiedades Number of primary workers, Number of secondary workers y Autoscaling policy.
  • La configuración del tipo de máquina del trabajador es la misma que la del perfil elegido.
  • Si desactivas el botón de activación Usar el ajuste de escala automático predefinido, se inhabilita el ajuste de escala automático predefinido y, luego, se ejecuta el comportamiento original del perfil.

Argumento de entorno de ejecución:

El comportamiento descrito se puede lograr ingresando la siguiente clave y valor en los argumentos del entorno de ejecución:

system.profile.properties.enablePredefinedAutoScaling = true

Opción 3: Habilita una política de ajuste de escala automático predefinida en un perfil de procesamiento nuevo

Puedes hacer clic en el botón de activación Usar el ajuste de escala automático predefinido cuando crees un nuevo perfil del aprovisionador de Dataproc. Luego, puedes usar este perfil en diferentes canalizaciones y tener más control sobre el tipo de máquina del trabajador y otras propiedades.

  1. En la consola de Google Cloud, ve a la página Instancias de Cloud Data Fusion.
  2. Haz clic en Ver instancia para abrir una instancia en la IU de Cloud Data Fusion.
  3. Puedes crear el perfil a partir del alcance del sistema o del alcance del usuario:

    1. Para el alcance del sistema, haz clic en System Admin > Configuration > System Compute Profiles > Crear perfil nuevo (opcional).
    2. Para el permiso de usuario, haz clic en Menú > Administrador de espacio de nombres > Crear perfil (opcional).

    Se abrirá una página de aprovisionadores.

  4. Haz clic en Dataproc.

  5. Expande la sección Cantidad de trabajadores del clúster.

  6. Haz clic en el botón de activación Usar el ajuste de escala automático predefinido.

  7. Ingresa los demás detalles y haz clic en Crear.

Para aplicar este perfil a tu canalización, abre la canalización en la página de Studio, haz clic en Configurar > Procesamiento y selecciona el perfil. Puedes establecer el perfil como predeterminado.

Detalles adicionales

En la página Configuración de procesamiento, en la que puedes ver una lista de perfiles, hay una columna Total de núcleos, que tiene la cantidad máxima de CPU virtuales que el perfil puede escalar verticalmente, como Up to 84.

Compatibilidad de versiones

Problema: Es posible que la versión del entorno de Cloud Data Fusion no sea compatible con la versión del clúster de Dataproc.

Recomendación: Actualiza a la versión más reciente de Cloud Data Fusion y usa una de las versiones compatibles de Dataproc.

Las versiones anteriores de Cloud Data Fusion solo son compatibles con versiones de Dataproc no compatibles. Dataproc no proporciona actualizaciones ni asistencia para los clústeres creados con estas versiones. Aunque puedes seguir ejecutando un clúster que se creó con una versión no compatible, te recomendamos que lo reemplaces por uno creado con una versión compatible.

Versión de Cloud Data Fusion Versión de Dataproc
6.10 y posteriores 2.1, 2.0 *
6.9 2.1, 2.0 y 1.5 *
6.7 a 6.8 2.0, 1.5 *
6.4 a 6.6 2.0 *, 1.3 **
6.1 a 6.3 1.3**

* Las versiones 6.4 y posteriores de Cloud Data Fusion son compatibles con las versiones compatibles de Dataproc. A menos que se necesiten funciones específicas del SO, la práctica recomendada es especificar la versión de la imagen major.minor.
Para especificar la versión del SO que se usa en tu clúster de Dataproc, la versión del SO debe ser compatible con una de las versiones compatibles de Dataproc de Cloud Data Fusion que se indican en la tabla anterior.

** Las versiones 6.1 a 6.6 de Cloud Data Fusion son compatibles con la versión 1.3 no compatible de Dataproc.

prácticas recomendadas

Recomendación: Cuando crees un clúster estático para tus canalizaciones, usa las siguientes configuraciones.

Parámetros
yarn.nodemanager.delete.debug-delay-sec Retiene los registros YARN.
Valor recomendado: 86400 (equivalente a un día)
yarn.nodemanager.pmem-check-enabled Permite que YARN verifique los límites de memoria física y cierre los contenedores si van más allá de la memoria física.
Valor recomendado: false
yarn.nodemanager.vmem-check-enabled Permite que YARN verifique los límites de la memoria virtual y elimine los contenedores si estos superan la memoria física.
Valor recomendado: false.