Upgrade Ihrer Cloud Data Fusion-Umgebung ausführen

Sie können Ihre Cloud Data Fusion-Instanzen und -Batchpipelines auf die neueste Plattform- und Plug-in-Versionen aktualisieren, um aktuelle Features, Fehlerkorrekturen und Leistungsverbesserungen zu erhalten. Das Upgrade umfasst Instanz- und Pipeline-Ausfallzeiten (siehe Vorbereitung).

Vorbereitung

  • Planen Sie eine geplante Ausfallzeit für das Upgrade. Der Vorgang dauert bis zu einer Stunde.

  • Empfohlen: Beenden Sie vor dem Ausführen eines Upgrades alle ausgeführten Pipelines und deaktivieren Sie vorgelagerte Trigger wie Cloud Composer-Trigger. Wenn das Upgrade beginnt, werden alle ausgeführten Pipelines beendet. Wenn Sie ein Upgrade auf Version 6.3 und höher ausführen und Pipelines bereits ausgeführt wurden, startet Cloud Data Fusion diese nicht neu. In älteren Versionen versucht Cloud Data Fusion, sie neu zu starten.

  • Installieren Sie Google Cloud CLI.

  • Installieren Sie curl.

Cloud Data Fusion-Instanzen aktualisieren

So aktualisieren Sie eine Cloud Data Fusion-Instanz auf eine neue Cloud Data Fusion-Version:

  1. Öffnen Sie in der Cloud Console die Seite Instanzen.

    Zur Seite „Instanzen“

  2. Klicken Sie auf Instance Name, um die Seite Instanzdetails zu öffnen. Auf dieser Seite sind Instanzinformationen aufgelistet, einschließlich instance id, region, aktueller Cloud Data Fusion-version, Logging- und Monitoring-Einstellungen sowie Instanzlabels.

Führen Sie dann das Upgrade über die Cloud Console oder die Cloud-Befehlszeile aus:

Console

  1. Klicken Sie auf Upgrade, um eine Liste der verfügbaren Versionen aufzurufen.

  2. Wählen Sie die gewünschte Version aus.

  3. Klicken Sie auf Upgrade.

  4. Klicken Sie auf Instanz aufrufen, um auf die aktualisierte Instanz zuzugreifen.

  5. Prüfen Sie, ob das Upgrade erfolgreich war. Aktualisieren Sie dazu die Seite Instanzdetails und klicken Sie dann in der Menüleiste auf Systemadministrator. Die neue Versionsnummer wird oben auf der Seite angezeigt.

  6. So verhindern Sie, dass Ihre Pipelines hängen bleiben, wenn Sie sie in der neuen Version ausführen:

    1. Weisen Sie die erforderlichen Rollen in der aktualisierten Instanz zu.

    2. Wenn Sie ein Upgrade auf Version 6.2.0 oder höher durchgeführt haben und der Dataproc-Cluster im Bereitstellungsstatus hängen bleibt, lesen Sie den Abschnitt Netzwerk-Tags hinzufügen.

gcloud

  1. Führen Sie in einer lokalen Cloud Shell-Sitzung den folgenden gcloud-Befehl aus, um ein Upgrade auf eine neue Cloud Data Fusion-Version durchzuführen. Fügen Sie die Flags --enable_stackdriver_logging, --enable_stackdriver_monitoring und --labels hinzu, wenn sie für Ihre Instanz anwendbar sind.

    gcloud beta data-fusion instances update \
        --project=PROJECT_ID \
        --location=REGION \
        --version=NEW_VERSION_NUMBER INSTANCE_ID
    

  2. Prüfen Sie nach Abschluss des Befehls, ob das Upgrade erfolgreich war. Aktualisieren Sie in der Cloud Console die Seite Instanzdetails und klicken Sie dann in der Menüleiste auf Systemadministrator. Die neue Versionsnummer wird oben auf der Seite angezeigt.

  3. So verhindern Sie, dass Ihre Pipelines hängen bleiben, wenn Sie sie in der neuen Version ausführen:

    1. Weisen Sie die erforderlichen Rollen in der aktualisierten Instanz zu.

    2. Wenn Sie ein Upgrade auf Version 6.2.0 oder höher ausgeführt haben und Ihr Dataproc-Cluster im Status Bereitstellung hängen bleibt, finden Sie unter Netzwerk-Tags hinzufügen weitere Informationen.

Batch-Pipelines aktualisieren

So aktualisieren Sie Ihre Cloud Data Fusion-Batchpipelines auf die neuesten Plug-in-Versionen:

  1. Umgebungsvariablen festlegen

  2. Empfohlen: Sichern Sie alle Pipelines.

    1. Führen Sie den folgenden Befehl aus und kopieren Sie die URL-Ausgabe in Ihren Browser, um den Download einer ZIP-Datei auszulösen.

      echo $CDAP_ENDPOINT/v3/export/apps
      

    2. Entpacken Sie die heruntergeladene Datei und prüfen Sie, ob alle Pipelines exportiert wurden. Die Pipelines sind nach Namespace organisiert.

  3. Aktualisieren Sie Pipelines.

    1. Erstellen Sie eine Variable, die auf die Datei pipeline_upgrade.json verweist. Diese Datei erstellen Sie im nächsten Schritt, um eine Liste von Pipelines zu speichern (die Datei PATH in die Datei einfügen).

      export PIPELINE_LIST=PATH/pipeline_upgrade.json
      

    2. Erstellen Sie mit dem folgenden Befehl eine Liste aller Pipelines für eine Instanz und einen Namespace. Das Ergebnis wird in der Datei $PIPELINE_LIST im Format JSON gespeichert. Sie können die Liste bearbeiten, um Pipelines zu entfernen, die nicht aktualisiert werden müssen. Setzen Sie das Feld NAMESPACE_ID auf den Namespace, in dem das Upgrade ausgeführt werden soll.

      curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps -o $PIPELINE_LIST
      

    3. Upgrade für die in pipeline_upgrade.json aufgeführten Pipelines ausführen Fügen Sie die NAMESPACE_ID der Pipelines ein, die aktualisiert werden sollen. Der Befehl zeigt eine Liste der aktualisierten Pipelines mit dem Upgradestatus an.

      curl -N -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/upgrade --data @$PIPELINE_LIST
      

  4. So verhindern Sie, dass Ihre Pipelines hängen bleiben, wenn Sie sie in der neuen Version ausführen:

    1. Weisen Sie die erforderlichen Rollen in der aktualisierten Instanz zu.

    2. Wenn Sie ein Upgrade auf Version 6.2.0 oder höher durchgeführt haben und der Dataproc-Cluster im Bereitstellungsstatus hängen bleibt, lesen Sie den Abschnitt Netzwerk-Tags hinzufügen.

Upgrade zur Aktivierung der Replikation

Die Replikation kann in Cloud Data Fusion-Umgebungen ab Version 6.3.0 aktiviert werden. Wenn Sie Version 6.2.3 haben, führen Sie ein Upgrade auf Version 6.3.0 durch und aktivieren Sie dann die Replikation.

Rollen für aktualisierte Instanzen zuweisen

Wenn Sie eine Instanz von Cloud Data Fusion Version 6.1.x auf Version 6.2.0 oder höher aktualisieren, weisen Sie nach Abschluss des Upgrades die Rolle "Cloud Data Fusion-Runner" und die Rolle "Cloud Storage-Administrator" für das Dataproc-Dienstkonto in Ihrem Projekt zu.

Netzwerk-Tags hinzufügen

Netzwerktags bleiben in Ihren Compute-Profilen erhalten, wenn Sie ein Upgrade von Cloud Data Fusion Version 6.2.x und höher auf eine höhere Version durchführen.

Wenn Sie ein Upgrade von Version 6.1.x auf Version 6.2.0 und höher durchführen, werden Netzwerktags nicht beibehalten. Dies kann dazu führen, dass der Dataproc-Cluster im Bereitstellungsstatus hängen bleibt, insbesondere wenn Ihre Umgebung restriktive Netzwerk- und Sicherheitsrichtlinien hat.

Fügen Sie stattdessen in jeder aktualisierten Instanz Ihre Netzwerktags manuell zu jedem Compute-Profil hinzu, das verwendet wird.

So fügen Sie einem Compute-Profil die Netzwerktags hinzu:

  1. Öffnen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen.

  2. Klicken Sie auf Instanz ansehen.

  3. Klicken Sie auf Systemadministrator.

  4. Klicken Sie auf den Tab Configuration (Konfiguration).

  5. Maximieren Sie das Feld System Compute-Profile.

  6. Klicken Sie auf Neues Profil erstellen. Eine Seite mit Bereitstellern wird geöffnet.

  7. Klicken Sie auf Dataproc.

  8. Geben Sie die gewünschten Profilinformationen ein, einschließlich der Netzwerk-Tags.

  9. Klicken Sie auf Erstellen.

Nachdem Sie die Tags hinzugefügt haben, verwenden Sie das aktualisierte Profil in Ihrer Pipeline. Die neuen Tags bleiben in zukünftigen Versionen erhalten.

Verfügbare Versionen für das Upgrade

Im Allgemeinen empfehlen wir die Verwendung der neuesten Version der Cloud Data Fusion-Umgebung, damit Ihre Instanzen im längsten möglichen Zeitraum in einer unterstützten Umgebung ausgeführt werden. Weitere Informationen finden Sie in der Versionsunterstützungsrichtlinie. Je nach ursprünglicher Version sind möglicherweise keine Upgrades auf einige Versionen verfügbar. In diesen Fällen können Sie ein Upgrade auf eine Version durchführen, die Upgrades auf die gewünschte Version unterstützt.

Cloud Data Fusion unterstützt die folgenden Versionsupgrades:

Ihre Cloud Data Fusion-Version Verfügbare Upgrades
6.5.1 6.6.0
6.5.0 6.5.1
6.4.1 6.5.1, 6.6.0
6.4.0 6.4.1
6.3.1 6.4.1, 6.5.1, 6.6.0
6.3.0 6.3.1, 6.4.1
6.2.3 6.3.1, 6.4.1, 6.5.1, 6.6.0
6.2.2 6.2.3
6.2.1 6.2.2, 6.2.3
6.2.0 6.2.1, 6.2.2, 6.2.3
6.1.4 6.3.1, 6.4.1, 6.5.1, 6.6.0
6.1.3 6.1.4, 6.3.1
6.1.2 6.1.3, 6.1.4

Problembehebung

Beim Upgrade auf Version 6.4 gibt es ein bekanntes Problem mit dem Joiner-Plug-in, bei dem Sie keine Join-Bedingungen sehen können. Weitere Informationen finden Sie auf der Seite Fehlerbehebung.