Soluciona problemas relacionados con la eliminación de clústeres

En esta página, se muestra cómo resolver problemas con la eliminación de clústeres efímeros de Dataproc en Cloud Data Fusion.

Cuando Cloud Data Fusion crea un clúster efímero de Dataproc durante el aprovisionamiento de la ejecución de la canalización, el clúster se borra después de que finaliza la ejecución de la canalización. En casos excepcionales, la eliminación del clúster falla.

Recomendado: Actualiza a la versión más reciente de Cloud Data Fusion para garantizar un mantenimiento adecuado del clúster.

Cómo establecer el tiempo máx. de inactividad

Para resolver este problema, configura el valor de Max Idle Time. Esto permite que Dataproc borre clústeres automáticamente, incluso si falla una llamada explícita en el final de la canalización.

Max Idle Time está disponible en las versiones 6.4 y posteriores de Cloud Data Fusion.

En Cloud Data Fusion 6.6 y versiones posteriores, el tiempo inactivo máximo se establece en 4 horas de forma predeterminada.

Para anular el tiempo predeterminado en el perfil de procesamiento predeterminado, sigue estos pasos:

  1. Abre la instancia en la interfaz web de Cloud Data Fusion.
  2. Haz clic en Administrador del sistema > Configuración > Preferencias del sistema.
  3. Haz clic en Editar las preferencias del sistema y agrega la clave system.profile.properties.idleTTL y el valor, en formato IntegerUnit, como 30m.

Recomendado: Para versiones anteriores a la 6.6, configura Max Idle Time de forma manual en 30 minutos o más.

Borra clústeres de forma manual

Si no puedes actualizar tu versión ni configurar la opción Max Idle Time, borra los clústeres inactivos de forma manual:

  1. Obtén cada ID de proyecto en el que se crearon los clústeres:

    1. En los argumentos del entorno de ejecución de la canalización, verifica si el ID del proyecto de Dataproc está personalizado para la ejecución.

      Verifica si el ID del proyecto de Dataproc está personalizado para la ejecución

    2. Si no se especifica un ID de proyecto de Dataproc de forma explícita, determina qué aprovisionador se usa y, luego, busca un ID de proyecto:

      1. En los argumentos del entorno de ejecución de la canalización, verifica el valor de system.profile.name.

        Obtén el nombre del proveedor en los argumentos del entorno de ejecución

      2. Abre la configuración del proveedor y verifica si está configurado el ID del proyecto de Dataproc. Si el parámetro de configuración no está presente o el campo está vacío, se usa el proyecto en el que se ejecuta la instancia de Cloud Data Fusion.

  2. Para cada proyecto, haz lo siguiente:

    1. Abre el proyecto en la consola de Google Cloud y ve a la página Clústeres de Dataproc.

      Ir a los clústeres

    2. Ordena los clústeres por la fecha en que se crearon, de los más antiguos a los más nuevos.

    3. Si el panel de información está oculto, haz clic en Mostrar panel de información y ve a la pestaña Etiquetas.

    4. Para cada clúster que no esté en uso (por ejemplo, si transcurrió más de un día), verifica si tiene una etiqueta de versión de Cloud Data Fusion. Eso indica que Cloud Data Fusion la creó.

    5. Selecciona la casilla de verificación junto al nombre del clúster y haz clic en Borrar.

Omitir la eliminación del clúster

Para depurar, puedes detener la eliminación automática de un clúster efímero.

Para detener la eliminación, establece la propiedad Skip Cluster Deletion en True. Debes borrar el clúster de forma manual después de terminar la depuración.