Administra las actualizaciones de versión de instancias y canalizaciones

En esta página, se describe cómo actualizar la versión de tus instancias o de tus canalizaciones por lotes.

Actualiza tus instancias y canalizaciones por lotes de Cloud Data Fusion a las versiones más recientes de la plataforma y los complementos para obtener las funciones más recientes, correcciones de errores y mejoras de rendimiento.

Antes de comenzar

Actualizar una instancia que tiene canalizaciones en ejecución puede generar resultados impredecibles y afectar la disponibilidad de la instancia.
  • Planifica un tiempo de inactividad programado para realizar la actualización. El proceso puede tardar hasta una hora.
  • In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

Limitaciones

  • Después de crear una instancia de Cloud Data Fusion, no puedes cambiar su edición, ni siquiera a través de una operación de actualización.

  • No actives una actualización con Terraform, ya que borra y vuelve a crear la instancia en lugar de realizar una actualización in situ. Este problema provoca la pérdida de todos los datos existentes en la instancia.

  • Cloud Data Fusion no reinicia las canalizaciones que se detienen como resultado de la operación de actualización.

  • Cuando actualices una instancia desde versiones anteriores a la 6.11.0, espera un mayor tiempo de inactividad para la actualización, en especial si la instancia controla una gran cantidad de datos.

  • No se admite la actualización de canalizaciones en tiempo real, excepto en las canalizaciones creadas en la versión 6.8.0 con una fuente en tiempo real de Kafka. Para obtener una solución alternativa, consulta Actualiza canalizaciones en tiempo real.

Actualiza las instancias de Cloud Data Fusion

Para actualizar una instancia de Cloud Data Fusion a una versión nueva, ve a la página Detalles de la instancia:

  1. En la Google Cloud consola, ve a la página de Cloud Data Fusion.

  2. Haz clic en Instancias y, luego, en el nombre de la instancia para ir a la página Detalles de la instancia.

    Ir a Instancias

Luego, realiza la actualización con la consola de Google Cloud o gcloud CLI:

Console

  1. Haz clic en Actualizar para obtener una lista de las versiones disponibles.

  2. Selecciona una versión.

  3. Haz clic en Actualizar.

  4. Verifica que la actualización se haya realizado correctamente:

    1. Actualiza la página Detalles de la instancia.

    2. Haz clic en Ver instancia para acceder a la instancia actualizada en la interfaz web de Cloud Data Fusion.

    3. Haz clic en Administrador del sistema en la barra de menú.

      El número de la versión nueva aparecerá en la parte superior de la página.

  5. Para evitar que tus canalizaciones se detengan cuando las ejecutes en la nueva versión, otorga los roles necesarios en tu instancia actualizada.

gcloud

  1. Para actualizar a una nueva versión de Cloud Data Fusion, ejecuta el siguiente comando de gcloud CLI desde una sesión de Cloud Shell de la terminal local:

      gcloud beta data-fusion instances update INSTANCE_ID \
        --project=PROJECT_ID \
        --location=LOCATION_NAME \
        --version=AVAILABLE_INSTANCE_VERSION
    
  2. Para verificar que la actualización se realizó correctamente, sigue estos pasos:

    1. En la Google Cloud consola, ve a la página Instancias de Cloud Data Fusion.

    2. Haz clic en Ver instancia para acceder a la instancia actualizada en la interfaz web de Cloud Data Fusion.

    3. Haz clic en Administrador del sistema en la barra de menú.

      El número de la versión nueva aparecerá en la parte superior de la página.

  3. Para evitar que tus canalizaciones se detengan cuando las ejecutes en la nueva versión, otorga los roles necesarios en tu instancia actualizada.

Actualiza las canalizaciones por lotes

A fin de actualizar tus canalizaciones por lotes de Cloud Data Fusion para usar las versiones más recientes del complemento, sigue estos pasos:

  1. Configura las variables de entorno.

  2. Recomendación: Crea una copia de seguridad de todas las canalizaciones. Puedes crear copias de seguridad de las canalizaciones de dos maneras:

    • Para descargar el archivo zip, sigue estos pasos:

      1. Para activar la descarga de un archivo ZIP, haz una copia de seguridad de todas las canalizaciones con el siguiente comando:
      echo $CDAP_ENDPOINT/v3/export/apps
      
      1. Copia la URL resultante en tu navegador.
      2. Extrae el archivo descargado y confirma que se exportaron todas las canalizaciones. Las canalizaciones se organizan por espacio de nombres.
    • Haz copias de seguridad de las canalizaciones con la Administración de control de código fuente (SCM), disponible en la versión 6.9 y posteriores. SCM proporciona integración con GitHub, que puedes usar para crear copias de seguridad de las canalizaciones.

  3. Sigue estos pasos para actualizar las canalizaciones:

    1. Crea una variable que apunte al archivo pipeline_upgrade.json que crearás en el siguiente paso para guardar una lista de canalizaciones.

      export PIPELINE_LIST=PATH/pipeline_upgrade.json
      

      Reemplaza PATH por la ruta de acceso al archivo.

    2. Crea una lista de todas las canalizaciones para una instancia y un espacio de nombres con el siguiente comando. El resultado se almacena en el archivo $PIPELINE_LIST en formato JSON. Puedes editar la lista para quitar las canalizaciones que no necesitan actualizaciones.

      curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps -o $PIPELINE_LIST
      

      Reemplaza NAMESPACE_ID por el espacio de nombres donde quieres que se realice la actualización.

    3. Actualiza las canalizaciones enumeradas en pipeline_upgrade.json. Inserta el NAMESPACE_ID de las canalizaciones que se actualizarán. El comando muestra una lista de canalizaciones actualizadas con su estado de actualización.

      curl -N -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/upgrade --data @$PIPELINE_LIST
      

      Reemplaza NAMESPACE_ID por el ID del espacio de nombres de las canalizaciones que se actualizarán.

  4. Para evitar que tus canalizaciones se detengan cuando las ejecutes en la nueva versión, otorga los roles necesarios en tu instancia actualizada.

Actualiza las canalizaciones en tiempo real

No se admite la actualización de canalizaciones en tiempo real, excepto en las canalizaciones creadas en la versión 6.8.0 con una fuente en tiempo real de Kafka.

Para todo lo demás, haz lo siguiente:

  1. Detén y exporta las canalizaciones.
  2. Actualiza la instancia.
  3. Importa las canalizaciones en tiempo real a tu instancia actualizada.

Actualiza para habilitar la replicación

La replicación se puede habilitar en entornos de Cloud Data Fusion 6.3.0 y versiones posteriores. Si tienes la versión 6.2.3, actualiza a la versión 6.3.0 y, luego, a la versión más reciente. Luego, puedes habilitar la replicación.

Otorga roles para instancias actualizadas

Después de que se complete la actualización, otorga el rol de ejecutor de Cloud Data Fusion (roles/datafusion.runner) y el rol de administrador de Cloud Storage (roles/storage.admin) a la cuenta de servicio de Dataproc en tu proyecto.

¿Qué sigue?