Cambia la versión de imagen de Dataproc en Cloud Data Fusion

En esta página, se describe cómo cambiar la versión de imagen en Dataproc que usa su instancia de Cloud Data Fusion.

Antes de comenzar

Detenga todas las canalizaciones en tiempo real y los trabajos de replicación en la instancia de Cloud Data Fusion. Si se ejecuta una canalización o replicación en tiempo real cuando cambia la versión de imagen de Dataproc, los cambios no se aplicarán a la ejecución de la canalización.

En el caso de las canalizaciones en tiempo real, si el punto de control está habilitado, la detención de estas canalizaciones no produce pérdida de datos. Para los trabajos de replicación, siempre que los registros de la base de datos estén disponibles, detener y comenzar el trabajo de replicación no provoca la pérdida de datos.

Consola

  1. Ve a la página Instancias de Cloud Data Fusion (en CDAP, haz clic en Ver instancias) y abre la instancia en la que necesitas detener una canalización.

    Ir a Instancias

  2. Abre cada canalización en tiempo real en Pipeline Studio y haz clic en Stop.

  3. Abre cada trabajo de replicación en la página Replicate y haz clic en Detener.

API de REST

  • Para recuperar todas las canalizaciones, use la siguiente llamada a la API de REST:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
    

    Reemplaza NAMESPACE_ID por el nombre de tu espacio de nombres.

  • Para detener una canalización en tiempo real, usa la siguiente llamada a la API de REST:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
    

    Reemplaza NAMESPACE_ID por el nombre de tu espacio de nombres y PIPELINE_NAME por el nombre de la canalización en tiempo real.

  • Para detener un trabajo de replicación, usa la siguiente llamada a la API de REST:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
    

    Reemplaza NAMESPACE_ID por el nombre de tu espacio de nombres y REPLICATION_JOB_NAME por el nombre del trabajo de replicación.

    Para obtener más información, consulta Detén las canalizaciones en tiempo real y Detención de los trabajos de replicación.

Verificar y anular la versión predeterminada de Dataproc en Cloud Data Fusion

  1. En la consola de Google Cloud, ve a la página Instancias (en CDAP, haz clic en Ver instancias) y abre la instancia.

    Ir a Instancias

  2. Haz clic en Administrador del sistema > Configuración > Preferencias del sistema.

    Editar las preferencias del sistema

  3. Si no se especifica una imagen de Dataproc en las preferencias del sistema, o para cambiarla, haz clic en Edit System Preferences (Editar preferencias del sistema).

    1. Ingresa el siguiente texto en el campo Clave:

      system.profile.properties.imageVersion

    2. Ingresa la imagen de Dataproc deseada en el campo Valor, como 1.5-debian10.

    3. Haz clic en Guardar y cerrar.

Configurar preferencias del sistema

Este cambio afecta a toda la instancia de Cloud Data Fusion, incluidos todos los espacios de nombres y las ejecuciones de las canalizaciones, a menos que la propiedad de la versión de la imagen se anule en un espacio de nombres, una canalización o un argumento del entorno de ejecución en la instancia.

Cambiar la versión de la imagen de Dataproc en un espacio de nombres o un argumento de entorno de ejecución de la canalización

Si no anulaste la versión de la imagen de Dataproc en las preferencias del espacio de nombres o en los argumentos del entorno de ejecución de la canalización, puedes omitir estos pasos.

Preferencias de espacio de nombres

Si anulaste la versión de la imagen en las propiedades de tu espacio de nombres, sigue estos pasos:

  1. Abra su instancia en la IU de Cloud Data Fusion.

  2. Haz clic en Administrador del sistema > Configuración > Espacios de nombres.

  3. Abra cada espacio de nombres y haga clic en Preferencias.

    1. Asegúrate de que no haya una anulación con la clave system.profile.properties.imageVersion con un valor de versión de imagen incorrecto.

    2. Haz clic en Finalizar.

Argumentos del entorno de ejecución de la canalización

Si anulaste la versión de la imagen con una propiedad en los argumentos del entorno de ejecución de tu canalización, sigue estos pasos:

  1. Abra su instancia en la IU de Cloud Data Fusion.

  2. Haz clic en Pipeline > List y selecciona la canalización deseada.

    La canalización se abre en la página de Pipeline Studio.

  3. Haz clic en el menú desplegable junto a Ejecutar.

    Se abrirá la ventana Runtime Arguments.

  4. Asegúrate de que no haya una anulación con la clave system.profile.properties.imageVersion y el valor de versión de la imagen incorrecto.

  5. Haz clic en Guardar.

    Configurar argumento de entorno de ejecución de canalización

Volver a crear clústeres estáticos de Dataproc que usa Cloud Data Fusion con la versión de imagen deseada

Si usas clústeres de Dataproc existentes con Cloud Data Fusion, sigue la guía de Dataproc para recrear los clústeres con la versión deseada de la imagen de Dataproc de tu versión de Cloud Data Fusion.

Si hay canalizaciones en ejecución cuando se vuelve a crear el clúster, fallarán las canalizaciones. Las ejecuciones posteriores deben ejecutarse en el clúster recreado.

Como alternativa, puedes crear un clúster de Dataproc nuevo con la versión de imagen deseada y borrar y volver a crear el perfil de procesamiento en Cloud Data Fusion con el mismo nombre de perfil de procesamiento y el nombre de clúster de Dataproc actualizado. De esta manera, la ejecución de canalizaciones por lotes puede completar la ejecución en el clúster existente, y las nuevas ejecuciones de canalización se realizarán en el clúster de Dataproc nuevo. Puedes borrar el clúster anterior de Dataproc después de confirmar que todas las ejecuciones de las canalizaciones se hayan completado.

Verifica que la versión de la imagen de Dataproc esté actualizada

Consola

  1. En Google Cloud Console, ve a la página Clústeres de Dataproc.

    Ir a los clústeres

  2. Abre la página Detalles del clúster del clúster nuevo que creó Cloud Data Fusion cuando especificaste la versión nueva.

    El campo Versión de la imagen tiene el valor nuevo que especificaste en Cloud Data Fusion.

API de REST

  1. Obtén la lista de clústeres con sus metadatos:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
    

    Reemplaza lo siguiente:

    • NAMESPACE_ID por el nombre del espacio de nombres
    • REGION_ID por el nombre de la región en la que se encuentran los clústeres
  2. Busque el nombre de su canalización (nombre del clúster).

  3. Debajo de ese objeto JSON, observa la imagen en config > softwareConfig > imageVersion.