En esta página, se describe cómo volver a usar los clústeres de Dataproc para las ejecuciones de tu canalización en Cloud Data Fusion. Para obtener más información, consulta Cuándo volver a usar clústeres y Ejecuta una canalización en un clúster de Dataproc existente.
Antes de comenzar
- Debes tener una instancia de Cloud Data Fusion en la versión 6.5.0 o posterior.
Habilitar la reutilización de clústeres
Puedes volver a usar clústeres en un perfil de procesamiento nuevo o en uno que se haya usado en una canalización implementada.
Habilita la reutilización del clúster en un perfil nuevo
Ve a la instancia:
En la consola de Google Cloud, ve a la página de Cloud Data Fusion.
Para abrir la instancia en Cloud Data Fusion Studio, haz clic en Instancias y, luego, en Ver instancia.
Haz clic en Administrador del sistema > Configuración > Perfiles de procesamiento del sistema.
Haz clic en Crear un perfil nuevo.
Elige el aprovisionador de Dataproc.
En la ventana Crear un perfil para Dataproc, ingresa los detalles sobre tu clúster:
- En los campos Etiqueta del perfil (Profile label) y Nombre del perfil (Profile name), ingresa un nombre para identificar el perfil, por ejemplo,
execution_compute-profile
. - En el campo Descripción, describe el propósito del perfil, por ejemplo,
Profile used for pipeline execution
. - En el campo Tiempo de inactividad máximo, ingresa un valor. Para obtener más información, consulta Establece el tiempo de inactividad máximo.
- Establece el campo Omitir eliminación del clúster en
True
. Para obtener más información, consulta Cuándo volver a usar clústeres. - Opcional: Configura otros campos opcionales.
- Haz clic en Crear.
- En los campos Etiqueta del perfil (Profile label) y Nombre del perfil (Profile name), ingresa un nombre para identificar el perfil, por ejemplo,
Habilita la reutilización de clústeres en una canalización implementada
Ve a la instancia:
En la consola de Google Cloud, ve a la página de Cloud Data Fusion.
Para abrir la instancia en Cloud Data Fusion Studio, haz clic en Instancias y, luego, en Ver instancia.
Haz clic en Lista.
Haz clic en la pestaña Implementada y, luego, en el nombre de una canalización. La canalización implementada se abre en la página Studio en la interfaz web de Cloud Data Fusion.
Haz clic en Configurar.
En la ventana Configuración de procesamiento, ve al perfil elegido y haz clic en Personalizar.
En la ventana que se abre, ingresa los siguientes valores:
- En el campo Tiempo máximo de inactividad, ingresa un valor. Para obtener más información, consulta Establece el tiempo de inactividad máximo.
- Establece Omitir eliminación del clúster en
True
. Para obtener más información, consulta Cuándo volver a usar clústeres.
Haz clic en Listo.
¿Qué sigue?
- Obtén más información sobre cómo configurar clústeres.
- Soluciona los problemas de eliminación de clústeres.