Reutilizar clústeres

En esta página se describe cómo reutilizar clústeres de Dataproc para las ejecuciones de flujos de procesamiento en Cloud Data Fusion. Para obtener más información, consulta Cuándo reutilizar clústeres y Ejecutar un flujo de procesamiento en un clúster de Dataproc ya creado.

Antes de empezar

  • Debes tener una instancia de Cloud Data Fusion con la versión 6.5.0 o una posterior.

Habilitar la reutilización de clústeres

Puedes reutilizar clústeres en un nuevo perfil de cálculo o en uno que se haya usado en una canalización implementada.

Habilitar la reutilización de clústeres en un perfil nuevo

  1. Ve a tu instancia:

    1. En la Google Cloud consola, ve a la página de Cloud Data Fusion.

    2. Para abrir la instancia en Cloud Data Fusion Studio, haga clic en Instancias y, a continuación, en Ver instancia.

      Ir a Instancias

  2. Haz clic en Administrador del sistema > Configuración > Perfiles de cálculo del sistema.

  3. Haz clic en Crear perfil.

  4. Elige el aprovisionador Dataproc.

  5. En la ventana Crear un perfil para Dataproc, introduce los detalles de tu clúster:

    1. En los campos Etiqueta de perfil y Nombre de perfil, introduce un nombre para identificar el perfil (por ejemplo, execution_compute-profile).
    2. En el campo Descripción, describe el propósito del perfil. Por ejemplo, Profile used for pipeline execution.
    3. En el campo Tiempo máximo de inactividad, introduce un valor. Para obtener más información, consulta Definir el tiempo máximo de inactividad.
    4. Asigna el valor True al campo Skip cluster delete. Para obtener más información, consulta Cuándo reutilizar clústeres.
    5. Opcional: configura otros campos opcionales.
    6. Haz clic en Crear.

Habilitar la reutilización de clústeres en una canalización implementada

  1. Ve a tu instancia:

    1. En la Google Cloud consola, ve a la página de Cloud Data Fusion.

    2. Para abrir la instancia en Cloud Data Fusion Studio, haga clic en Instancias y, a continuación, en Ver instancia.

      Ir a Instancias

  2. Haz clic en Lista.

  3. Haga clic en la pestaña Implementado y, a continuación, en el nombre de una canalización. La canalización desplegada se abre en la página Studio de la interfaz web de Cloud Data Fusion.

  4. Haz clic en Configurar.

  5. En la ventana Configuración de cálculo, ve al perfil elegido y haz clic en Personalizar.

  6. En la ventana que se abre, introduce los siguientes valores:

    1. En el campo Tiempo máximo de inactividad, introduce un valor. Para obtener más información, consulta Definir el tiempo máximo de inactividad.
    2. Activa Saltar eliminación de clúster True. Para obtener más información, consulta Cuándo reutilizar clústeres.
  7. Haz clic en Listo.

Siguientes pasos