Instanzen und Pipelines aktualisieren

Sie können Ihre Cloud Data Fusion-Instanzen und Batchpipelines auf die neueste Plattform und die Plug-in-Versionen upgraden, um die neuesten Features, Fehlerkorrekturen und Leistungsverbesserungen zu erhalten. Das Upgrade umfasst Instanz- und Pipeline-Ausfallzeiten (siehe Vorbereitung).

Vorbereitung

  • Planen Sie eine geplante Ausfallzeit für das Upgrade. Der Vorgang dauert bis zu einer Stunde.

  • Empfohlen: Beenden Sie vor dem Upgrade alle ausgeführten Pipelines und deaktivieren Sie vorgelagerte Trigger wie Cloud Composer-Trigger. Wenn das Upgrade beginnt, werden alle ausgeführten Pipelines beendet. Wenn Sie ein Upgrade auf Version 6.3 oder höher ausführen und Pipelines zuvor ausgeführt werden, werden sie von Cloud Data Fusion nicht neu gestartet. In früheren Versionen versucht Cloud Data Fusion, sie neu zu starten.

  • Cloud SDK installieren

  • Installieren Sie curl.

Cloud Data Fusion-Instanzen aktualisieren

So aktualisieren Sie eine Cloud Data Fusion-Instanz auf eine neue Cloud Data Fusion-Version:

  1. Öffnen Sie in der Cloud Console die Seite Instanzen.

    Zur Seite „Instanzen“

  2. Klicken Sie auf Instance Name, um die Seite Instanzdetails zu öffnen. Auf dieser Seite sind Instanzinformationen aufgelistet, einschließlich instance id, region, aktueller Cloud Data Fusion-version, Logging- und Monitoring-Einstellungen sowie Instanzlabels.

Führen Sie dann das Upgrade mithilfe der Cloud Console oder des gcloud-Befehlszeilentools durch:

Konsole

  1. Klicken Sie auf Upgrade, um eine Liste der verfügbaren Versionen aufzurufen.

  2. Wählen Sie die gewünschte Version aus.

  3. Klicken Sie auf Upgrade.

  4. Klicken Sie auf Instanz aufrufen, um auf die aktualisierte Instanz zuzugreifen.

  5. Prüfen Sie, ob das Upgrade erfolgreich war. Laden Sie dazu die Seite Instanzdetails neu und klicken Sie in der Menüleiste auf Systemadministrator. Die neue Versionsnummer wird oben auf der Seite angezeigt.

  6. So verhindern Sie, dass Ihre Pipelines bei der Ausführung in der neuen Version hängen bleiben:

    1. Weisen Sie die erforderlichen Rollen in der aktualisierten Instanz zu.

    2. Wenn Sie ein Upgrade auf Version 6.2.0 oder höher durchgeführt haben und Ihr Dataproc-Cluster im Bereitstellungsstatus hängen bleibt, lesen Sie Netzwerk-Tags hinzufügen.

gcloud

  1. Führen Sie in einer lokalen Cloud Shell-Sitzung den folgenden gcloud-Befehl aus, um ein Upgrade auf eine neue Cloud Data Fusion-Version durchzuführen. Fügen Sie die Flags --enable_stackdriver_logging, --enable_stackdriver_monitoring und --labels hinzu, wenn sie für Ihre Instanz anwendbar sind.

    gcloud beta data-fusion instances update \
        --project=PROJECT_ID \
        --location=REGION \
        --version=NEW_VERSION_NUMBER INSTANCE_ID
    

  2. Prüfen Sie nach Abschluss des Befehls, ob das Upgrade erfolgreich war. Laden Sie in der Cloud Console die Seite Instanzdetails neu und klicken Sie in der Menüleiste auf Systemadministrator. Die neue Versionsnummer wird oben auf der Seite angezeigt.

  3. So verhindern Sie, dass Ihre Pipelines bei der Ausführung in der neuen Version hängen bleiben:

    1. Weisen Sie die erforderlichen Rollen in der aktualisierten Instanz zu.

    2. Wenn Sie ein Upgrade auf Version 6.2.0 oder höher durchgeführt haben und Ihr Dataproc-Cluster im Bereitstellungsstatus hängen bleibt, lesen Sie Netzwerk-Tags hinzufügen.

Batch-Pipelines aktualisieren

So aktualisieren Sie Ihre Cloud Data Fusion-Batchpipelines auf die neuesten Plug-in-Versionen:

  1. Umgebungsvariablen festlegen

  2. Empfohlen: Sichern Sie alle Pipelines.

    1. Führen Sie den folgenden Befehl aus und kopieren Sie die URL-Ausgabe in Ihren Browser, um den Download einer ZIP-Datei auszulösen.

      echo $CDAP_ENDPOINT/v3/export/apps
      

    2. Entpacken Sie die heruntergeladene Datei und prüfen Sie, ob alle Pipelines exportiert wurden. Die Pipelines sind nach Namespace organisiert.

  3. Aktualisieren Sie Pipelines.

    1. Erstellen Sie eine Variable, die auf die Datei pipeline_upgrade.json verweist. Diese Datei erstellen Sie im nächsten Schritt, um eine Liste von Pipelines zu speichern (die Datei PATH in die Datei einfügen).

      export PIPELINE_LIST=PATH/pipeline_upgrade.json
      

    2. Erstellen Sie mit dem folgenden Befehl eine Liste aller Pipelines für eine Instanz und einen Namespace. Das Ergebnis wird in der Datei $PIPELINE_LIST im Format JSON gespeichert. Sie können die Liste bearbeiten, um Pipelines zu entfernen, die nicht aktualisiert werden müssen. Setzen Sie das Feld NAMESPACE_ID auf den Namespace, in dem das Upgrade ausgeführt werden soll.

      curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps -o $PIPELINE_LIST
      

    3. Upgrade für die in pipeline_upgrade.json aufgeführten Pipelines ausführen Fügen Sie die NAMESPACE_ID der Pipelines ein, die aktualisiert werden sollen. Der Befehl zeigt eine Liste der aktualisierten Pipelines mit dem Upgradestatus an.

      curl -N -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" ${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/upgrade --data @$PIPELINE_LIST
      

  4. So verhindern Sie, dass Ihre Pipelines bei der Ausführung in der neuen Version hängen bleiben:

    1. Weisen Sie die erforderlichen Rollen in der aktualisierten Instanz zu.

    2. Wenn Sie ein Upgrade auf Version 6.2.0 oder höher durchgeführt haben und Ihr Dataproc-Cluster im Bereitstellungsstatus hängen bleibt, lesen Sie Netzwerk-Tags hinzufügen.

Upgrade zur Aktivierung der Replikation durchführen

Die Replikation kann in Cloud Data Fusion-Umgebungen ab Version 6.3.0 aktiviert werden. Wenn Sie Version 6.2.3 verwenden, führen Sie ein Upgrade auf 6.3.0 durch und aktivieren Sie dann die Replikation.

Rollen für aktualisierte Instanzen zuweisen

Wenn Sie eine Instanz von Cloud Data Fusion Version 6.1.x auf Version 6.2.0 oder höher aktualisieren, gewähren Sie nach Abschluss des Upgrades die Cloud Data Fusion Runner-Rolle und Cloud Storage-Administratorrolle für das Dataproc-Dienstkonto in Ihrem Projekt

Netzwerk-Tags hinzufügen

Netzwerktags werden in Ihren Computing-Profilen beibehalten, wenn Sie von Cloud Data Fusion Version 6.2.x und höher auf eine höhere Version aktualisieren.

Wenn Sie von Version 6.1.x auf Version 6.2.0 und höher aktualisieren, werden Netzwerk-Tags nicht beibehalten. Dies kann dazu führen, dass Ihr Dataproc-Cluster im Status Bereitstellung hängen bleibt, insbesondere wenn Ihre Umgebung restriktive Netzwerk- und Sicherheitsrichtlinien hat.

Stattdessen müssen Sie Ihre Netzwerk-Tags in jeder aktualisierten Instanz manuell jedem Computerprofil hinzufügen, das sie verwendet.

So fügen Sie die Netzwerk-Tags einem Computing-Profil hinzu:

  1. Öffnen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen.

  2. Klicken Sie auf Instanz ansehen.

  3. Klicken Sie auf Systemadministrator.

  4. Klicken Sie auf den Tab Configuration (Konfiguration).

  5. Maximieren Sie das Feld System Compute-Profile.

  6. Klicken Sie auf Neues Profil erstellen. Eine Seite mit Bereitstellern wird geöffnet.

  7. Klicken Sie auf Dataproc.

  8. Geben Sie die gewünschten Profilinformationen ein, einschließlich der Netzwerktags.

  9. Klicken Sie auf Erstellen.

Nachdem Sie die Tags hinzugefügt haben, verwenden Sie das aktualisierte Profil in der Pipeline. Die neuen Tags bleiben in zukünftigen Versionen erhalten.

Verfügbare Versionen für das Upgrade

Im Allgemeinen empfehlen wir für die Aktualisierung die Verwendung der neuesten Version der Cloud Data Fusion-Umgebung, damit Ihre Instanzen in einem unterstützten Zeitraum für den längsten Zeitraum ausgeführt werden. Weitere Informationen finden Sie in der Versionsunterstützungsrichtlinie. Abhängig von Ihrer ursprünglichen Version sind Upgrades auf einige Versionen möglicherweise nicht verfügbar. In diesen Fällen können Sie ein Upgrade auf eine Version durchführen, die Upgrades auf die gewünschte Version unterstützt.

Cloud Data Fusion unterstützt die folgenden Versionsupgrades:

Meine Cloud Data Fusion-Version Verfügbare Upgrades
6.4.1 6.5.0
6.4.0 6.4.1
6.3.1 6.4.1, 6.5.0
6.3.0 6.3.1, 6.4.1
6.2.3 6.3.1, 6.4.1, 6.5.0
6.2.2 6.2.3
6.2.1 6.2.2, 6.2.3
6.2.0 6.2.1, 6.2.2, 6.2.3
6.1.4 6.3.1, 6.4.1, 6.5.0
6.1.3 6.1.4, 6.3.1
6.1.2 6.1.3, 6.1.4

Fehlerbehebung

Beim Upgrade auf Version 6.4 gibt es ein bekanntes Problem mit dem Joiner-Plug-in, bei dem keine Join-Bedingungen angezeigt werden können. Weitere Informationen finden Sie auf der Seite Fehlerbehebung.