Cómo volver a utilizar clústeres

En esta página, se describe cómo volver a usar clústeres de Dataproc para las ejecuciones de tu canalización en Cloud Data Fusion. Para obtener más información, consulta Cuándo volver a usar clústeres y Ejecuta una canalización en un clúster existente de Dataproc.

Antes de comenzar

  • Debes tener una instancia de Cloud Data Fusion en la versión 6.5.0 o una posterior.

Habilita la reutilización de clústeres

Puedes volver a usar los clústeres en un perfil de procesamiento nuevo o en uno que se haya usado en una canalización implementada.

Habilita la reutilización de clústeres en un perfil nuevo

  1. Ve a tu instancia:

    1. En la consola de Google Cloud, ve a la página de Cloud Data Fusion.

    2. Para abrir la instancia en Cloud Data Fusion Studio, haz clic en Instancias y, luego, en Ver instancia.

      Ir a Instancias

  2. Haz clic en Administrador del sistema > Configuración > Perfiles de procesamiento del sistema.

  3. Haz clic en Crear un perfil nuevo.

  4. Elige el aprovisionador de Dataproc.

  5. En la ventana Create a profile for Dataproc, ingresa los detalles sobre tu clúster:

    1. En los campos Etiqueta de perfil y Nombre de perfil, ingresa un nombre para identificar el perfil, por ejemplo, execution_compute-profile.
    2. En el campo Descripción, describe el propósito del perfil, por ejemplo, Profile used for pipeline execution.
    3. En el campo Max idle time, ingresa un valor. Para obtener más información, consulta Establece el tiempo inactivo máximo.
    4. Establece el campo Omitir la eliminación del clúster en True. Para obtener más información, consulta Cuándo volver a usar clústeres.
    5. Opcional: Configura otros campos opcionales.
    6. Haz clic en Crear.

Habilita la reutilización de clústeres en una canalización implementada

  1. Ve a tu instancia:

    1. En la consola de Google Cloud, ve a la página de Cloud Data Fusion.

    2. Para abrir la instancia en Cloud Data Fusion Studio, haz clic en Instancias y, luego, en Ver instancia.

      Ir a Instancias

  2. Haz clic en Lista.

  3. Haz clic en la pestaña Implementada y, luego, en el nombre de una canalización. La canalización implementada se abrirá en la página Studio de la interfaz web de Cloud Data Fusion.

  4. Haz clic en Configurar.

  5. En la ventana Compute config, ve al perfil elegido y haz clic en Customize.

  6. En la ventana que se abre, ingresa los siguientes valores:

    1. En el campo Max Idle Time, ingresa un valor. Para obtener más información, consulta Establece el tiempo inactivo máximo.
    2. Establece Omitir la eliminación del clúster en True. Para obtener más información, consulta Cuándo volver a usar clústeres.
  7. Haz clic en Listo.

¿Qué sigue?