En esta página se describe cómo reutilizar clústeres de Dataproc para las ejecuciones de flujos de procesamiento en Cloud Data Fusion. Para obtener más información, consulta Cuándo reutilizar clústeres y Ejecutar un flujo de procesamiento en un clúster de Dataproc ya creado.
Antes de empezar
- Debes tener una instancia de Cloud Data Fusion con la versión 6.5.0 o una posterior.
Habilitar la reutilización de clústeres
Puedes reutilizar clústeres en un nuevo perfil de cálculo o en uno que se haya usado en una canalización implementada.
Habilitar la reutilización de clústeres en un perfil nuevo
- Ve a tu instancia: - En la Google Cloud consola, ve a la página de Cloud Data Fusion. 
- Para abrir la instancia en Cloud Data Fusion Studio, haga clic en Instancias y, a continuación, en Ver instancia. 
 
- Haz clic en Administrador del sistema > Configuración > Perfiles de cálculo del sistema. 
- Haz clic en Crear perfil. 
- Elige el aprovisionador Dataproc. 
- En la ventana Crear un perfil para Dataproc, introduce los detalles de tu clúster: - En los campos Etiqueta de perfil y Nombre de perfil, introduce un nombre para identificar el perfil (por ejemplo, execution_compute-profile).
- En el campo Descripción, describe el propósito del perfil. Por ejemplo, Profile used for pipeline execution.
- En el campo Tiempo máximo de inactividad, introduce un valor. Para obtener más información, consulta Definir el tiempo máximo de inactividad.
- Asigna el valor Trueal campo Skip cluster delete. Para obtener más información, consulta Cuándo reutilizar clústeres.
- Opcional: configura otros campos opcionales.
- Haz clic en Crear.
 
- En los campos Etiqueta de perfil y Nombre de perfil, introduce un nombre para identificar el perfil (por ejemplo, 
Habilitar la reutilización de clústeres en una canalización implementada
- Ve a tu instancia: - En la Google Cloud consola, ve a la página de Cloud Data Fusion. 
- Para abrir la instancia en Cloud Data Fusion Studio, haga clic en Instancias y, a continuación, en Ver instancia. 
 
- Haz clic en Lista. 
- Haga clic en la pestaña Implementado y, a continuación, en el nombre de una canalización. La canalización desplegada se abre en la página Studio de la interfaz web de Cloud Data Fusion. 
- Haz clic en Configurar. 
- En la ventana Configuración de cálculo, ve al perfil elegido y haz clic en Personalizar. 
- En la ventana que se abre, introduce los siguientes valores: - En el campo Tiempo máximo de inactividad, introduce un valor. Para obtener más información, consulta Definir el tiempo máximo de inactividad.
- Activa Saltar eliminación de clúster True. Para obtener más información, consulta Cuándo reutilizar clústeres.
 
- Haz clic en Listo. 
Siguientes pasos
- Consulta más información sobre cómo configurar clústeres.
- Consulta cómo eliminar clústeres.