Ejecuta una canalización en un clúster de Dataproc existente

En esta página, se describe cómo ejecutar una canalización en Cloud Data Fusion en un clúster existente de Dataproc.

De forma predeterminada, Cloud Data Fusion crea clústeres efímeros para cada canalización: crea un clúster al comienzo de la ejecución de la canalización y, luego, lo borra cuando la finaliza. Aunque este comportamiento ahorra costos porque garantiza que solo se creen recursos cuando sea necesario, este comportamiento predeterminado podría no ser conveniente en las siguientes situaciones:

  • Si el tiempo que lleva crear un clúster nuevo para cada canalización es adecuado para tu caso de uso.

  • Si tu organización requiere que la creación del clúster se administre de forma centralizada. Por ejemplo, cuando deseas aplicar ciertas políticas para todos los clústeres de Dataproc.

En estos casos, ejecuta las canalizaciones en un clúster existente con los siguientes pasos.

Antes de comenzar

Debes tener lo siguiente:

Conéctate al clúster existente

En las versiones 6.2.1 y posteriores de Cloud Data Fusion, puedes conectarte a un clúster existente de Dataproc cuando creas un perfil nuevo de Compute Engine.

  1. Ve a la instancia:

    1. En la consola de Google Cloud, ve a la página de Cloud Data Fusion.

    2. Para abrir la instancia en la interfaz web de Cloud Data Fusion, haga clic en Instancias y, luego, en Ver instancia.

      Ir a Instancias

  2. Haz clic en Administrador del sistema.

  3. Haz clic en la pestaña Configuración.

  4. Haz clic en Perfiles de procesamiento del sistema.

  5. Haz clic en Crear un perfil nuevo. Se abrirá una página de aprovisionadores.

  6. Haga clic en Existing Dataproc.

  7. Ingresa el perfil, el clúster y la información de supervisión.

  8. Haz clic en Crear.

Configura tu canalización para usar el perfil personalizado

  1. Ve a la instancia:

    1. En la consola de Google Cloud, ve a la página de Cloud Data Fusion.

    2. Para abrir la instancia en la interfaz web de Cloud Data Fusion, haga clic en Instancias y, luego, en Ver instancia.

      Ir a Instancias

  2. Ve a tu canalización en la página de Studio.

  3. Haz clic en Configurar.

  4. Haz clic en Compute config.

  5. Haz clic en el perfil que creaste.

    Usar perfil personalizado
    Figura 1: Haz clic en el perfil personalizado
  6. Ejecutar la canalización Se ejecuta en el clúster existente de Dataproc.

¿Qué sigue?