Soluciona problemas relacionados con la eliminación de clústeres

En esta página, se muestra cómo resolver problemas relacionados con la eliminación de clústeres efímeros de Dataproc en Cloud Data Fusion.

Cuando Cloud Data Fusion crea un clúster de Dataproc efímero durante el aprovisionamiento de ejecución de la canalización, el clúster se borra después de que finaliza la ejecución de la canalización. En casos excepcionales, la eliminación del clúster falla.

Muy recomendada: Actualiza a la versión más reciente de Cloud Data Fusion para garantizar el mantenimiento adecuado del clúster.

Establecer tiempo de inactividad máximo

Para resolver este problema, configura el valor de Tiempo máximo de inactividad. Esto permite que Dataproc borre clústeres de forma automática, incluso si falla una llamada explícita a la finalización de la canalización.

Max Idle Time está disponible en Cloud Data Fusion 6.4 y versiones posteriores.

En Cloud Data Fusion 6.6 y versiones posteriores, el tiempo máximo de inactividad se establece en 4 horas de forma predeterminada.

Para anular el tiempo predeterminado en el perfil de procesamiento predeterminado, sigue estos pasos:

Abre la instancia en la interfaz web de Cloud Data Fusion.
Haz clic en System Admin > Configuration > System Preferences.
Haz clic en Edit System Preferences (Editar preferencias del sistema) y agrega la clave system.profile.properties.idleTTL y el valor, en formato IntegerUnit, como 30m.

Recomendación: Para las versiones anteriores a la 6.6, configura Max Idle Time de forma manual en 30 minutos o más.

Borra clústeres de forma manual

Si no puedes actualizar tu versión ni configurar la opción Max Idle Time, borra los clústeres inactivos de forma manual:

Obtén cada ID del proyecto en el que se crearon los clústeres:
1. En los argumentos del entorno de ejecución de la canalización, verifica si el ID del proyecto de Dataproc está personalizado para la ejecución.
2. Si el ID del proyecto de Dataproc no se especifica de forma explícita, determina qué aprovisionador se usa y, luego, busca un ID del proyecto:
  1. En los argumentos del entorno de ejecución de la canalización, verifica el valor system.profile.name.
  2. Abre la configuración del aprovisionador y verifica si el ID del proyecto de Dataproc está configurado. Si la configuración no está presente o el campo está vacío, se usa el proyecto en el que se ejecuta la instancia de Cloud Data Fusion.
Importante: Varias ejecuciones de canalizaciones podrían usar proyectos diferentes. Asegúrate de obtener todos los ID del proyecto.
Para cada proyecto:
1. Abre el proyecto en la consola de Google Cloud y ve a la página Clústeres de Dataproc.
  
  Ir a los clústeres
2. Ordena los clústeres por la fecha en que se crearon, de más antiguos a más recientes.
3. Si el panel de información está oculto, haz clic en Mostrar panel de información y ve a la pestaña Etiquetas.
4. Por cada clúster que no esté en uso (por ejemplo, si ya pasó más de un día), verifica si tienen una etiqueta de versión de Cloud Data Fusion. Esto es una indicación de que se creó con Cloud Data Fusion.
5. Selecciona la casilla de verificación junto al nombre del clúster y haz clic en Borrar.

Omitir la eliminación del clúster

Para fines de depuración, puedes detener la eliminación automática de un clúster efímero.

Para detener la eliminación, establece la propiedad Skip Cluster Deletion en True. Debes borrar el clúster de forma manual después de finalizar la depuración.