Soluciona problemas relacionados con la eliminación de clústeres
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
En esta página, se muestra cómo resolver problemas con la eliminación de clústeres efímeros de Dataproc en Cloud Data Fusion.
Cuando Cloud Data Fusion crea un clúster efímero de Dataproc durante el aprovisionamiento de la ejecución de la canalización, el clúster se borra después de que finaliza la ejecución de la canalización. En casos excepcionales, la eliminación del clúster falla.
Recomendado: Actualiza a la versión más reciente de Cloud Data Fusion para garantizar un mantenimiento adecuado del clúster.
Cómo establecer el tiempo máx. de inactividad
Para resolver este problema, configura el valor de Max Idle Time. Esto permite que Dataproc borre clústeres automáticamente, incluso si falla una llamada explícita en el final de la canalización.
Max Idle Time está disponible en las versiones 6.4 y posteriores de Cloud Data Fusion.
En Cloud Data Fusion 6.6 y versiones posteriores, el tiempo inactivo máximo se establece en 4 horas de forma predeterminada.
Para anular el tiempo predeterminado en el perfil de procesamiento predeterminado, sigue estos pasos:
Abre la instancia en la interfaz web de Cloud Data Fusion.
Haz clic en Administrador del sistema>Configuración>Preferencias del sistema.
Haz clic en Editar las preferencias del sistema y agrega la clave system.profile.properties.idleTTL y el valor, en formato IntegerUnit, como 30m.
Recomendado: Para versiones anteriores a la 6.6, configura Max Idle Time de forma manual en 30 minutos o más.
Borra clústeres de forma manual
Si no puedes actualizar tu versión ni configurar la opción Max Idle Time, borra los clústeres inactivos de forma manual:
Obtén cada ID de proyecto en el que se crearon los clústeres:
En los argumentos del entorno de ejecución de la canalización, verifica si el ID del proyecto de Dataproc está personalizado para la ejecución.
Si no se especifica un ID de proyecto de Dataproc de forma explícita, determina qué aprovisionador se usa y, luego, busca un ID de proyecto:
En los argumentos del entorno de ejecución de la canalización, verifica el valor de system.profile.name.
Abre la configuración del proveedor y verifica si está configurado el ID del proyecto de Dataproc. Si el parámetro de configuración no está presente o el campo está vacío, se usa el proyecto en el que se ejecuta la instancia de Cloud Data Fusion.
Para cada proyecto, haz lo siguiente:
Abre el proyecto en la Google Cloud consola y ve a la página Clústeres de Dataproc.
Ordena los clústeres por la fecha en que se crearon, de los más antiguos a los más nuevos.
Si el panel de información está oculto, haz clic en Mostrar panel de información y ve a la pestaña Etiquetas.
Para cada clúster que no esté en uso (por ejemplo, si transcurrió más de un día), verifica si tiene una etiqueta de versión de Cloud Data Fusion. Eso indica que Cloud Data Fusion la creó.
Selecciona la casilla de verificación junto al nombre del clúster y haz clic en Borrar.
Omitir la eliminación del clúster
Para depurar, puedes detener la eliminación automática de un clúster efímero.
Para detener la eliminación, establece la propiedad Skip Cluster Deletion en True. Debes borrar el clúster de forma manual después de terminar la depuración.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eThis guide addresses the issue of failed ephemeral Dataproc cluster deletions in Cloud Data Fusion, which can occur after a pipeline run.\u003c/p\u003e\n"],["\u003cp\u003eUpgrading to the latest Cloud Data Fusion version is strongly recommended to ensure automatic cluster cleanup.\u003c/p\u003e\n"],["\u003cp\u003eConfiguring the \u003ccode\u003eMax Idle Time\u003c/code\u003e setting (available in versions 6.4+) enables automatic cluster deletion by Dataproc even if the pipeline deletion fails, with a default of 4 hours in version 6.6+.\u003c/p\u003e\n"],["\u003cp\u003eIf upgrading or setting \u003ccode\u003eMax Idle Time\u003c/code\u003e isn't possible, you can manually delete stale clusters by identifying the relevant project IDs and deleting the clusters from the Dataproc Clusters page.\u003c/p\u003e\n"],["\u003cp\u003eFor debugging, the \u003ccode\u003eSkip Cluster Deletion\u003c/code\u003e property can be set to \u003ccode\u003eTrue\u003c/code\u003e to prevent cluster deletion after a pipeline run, but you must manually delete the cluster afterward.\u003c/p\u003e\n"]]],[],null,["# Troubleshoot deleting clusters\n\nThis page shows you how to resolve issues with deleting ephemeral\nDataproc clusters in Cloud Data Fusion.\n\nWhen Cloud Data Fusion creates an ephemeral Dataproc cluster\nduring pipeline run provisioning, the cluster gets deleted after the pipeline\nrun is finished. In rare cases, the cluster deletion fails.\n\n**Strongly recommended**: Upgrade to the most recent Cloud Data Fusion\nversion to ensure proper cluster maintenance.\n\nSet Max Idle Time\n-----------------\n\nTo resolve this issue, configure the **Max Idle Time** value. This lets\nDataproc delete clusters automatically, even if an explicit call\non the pipeline finish fails.\n\n`Max Idle Time` is available in Cloud Data Fusion versions 6.4 and later.\n\nIn Cloud Data Fusion 6.6 and later, **Max Idle Time** is set to 4 hours by\ndefault.\n\nTo override the default time in the default compute profile, follow these steps:\n\n1. Open the instance in the Cloud Data Fusion web interface.\n2. Click **System Admin** \\\u003e **Configuration** \\\u003e **System\n Preferences**.\n3. Click **Edit System Preferences** and add the key `system.profile.properties.idleTTL` and the value, in IntegerUnit format, such as `30m`.\n\n**Recommended** : For versions before 6.6, set `Max Idle Time` manually to 30\nminutes or greater.\n\nDelete clusters manually\n------------------------\n\nIf you cannot upgrade your version or configure the `Max Idle Time` option,\ninstead delete stale clusters manually:\n\n1. Get each project ID where the clusters were created:\n\n 1. In the pipeline's runtime arguments, check if the\n Dataproc project ID is customized for the run.\n\n 2. If a Dataproc project ID is not specified explicitly,\n determine which provisioner is used, and then check for a project ID:\n\n 1. In the pipeline runtime arguments, check the `system.profile.name`\n value.\n\n 2. Open the provisioner settings and check if the\n Dataproc project ID is set. If the setting is not\n present or the field is empty, the project that the\n Cloud Data Fusion instance is running in is used.\n\n | **Important:** Multiple pipeline runs might use different projects. Be sure to get all of the project IDs.\n2. For each project:\n\n 1. Open the project in the Google Cloud console and go to the\n Dataproc **Clusters** page.\n\n [Go to Clusters](https://console.cloud.google.com/dataproc/clusters)\n 2. Sort the clusters by the date that they were created, from oldest to\n newest.\n\n 3. If the info panel is hidden, click **Show info panel** and go to the\n **Labels** tab.\n\n 4. For every cluster that is not in use---for example, more than a day has\n elapsed---check if it has a Cloud Data Fusion version label. That\n is an indication that it was created by Cloud Data Fusion.\n\n 5. Select the checkbox by the cluster name and click **Delete**.\n\nSkip cluster deletion\n---------------------\n\nFor debugging purposes, you can stop the automatic deletion of an ephemeral\ncluster.\n\nTo stop the deletion, set the `Skip Cluster Deletion` property to `True`. You\nmust manually delete the cluster after you finish debugging."]]