Dataproc-Image-Version in Cloud Data Fusion ändern

Auf dieser Seite wird beschrieben, wie Sie die Dataproc-Image-Version ändern, die von Ihrer Cloud Data Fusion-Instanz verwendet wird.

Hinweis

Beenden Sie alle Echtzeit-Pipelines und Replikationsjobs in der Cloud Data Fusion-Instanz. Falls eine Pipeline oder Echtzeitreplikation in Echtzeit beim Ändern der Dataproc-Image-Version ausgeführt wird, werden die Änderungen nicht auf die Pipelineausführung angewendet.

Wenn Echtzeit-Pipelines aktiviert sind, führt das Anhalten dieser Pipelines nicht zu einem Datenverlust. Wenn Replikationsjobs verfügbar sind, führt das Anhalten und Starten des Replikationsjobs nicht zu Datenverlusten, sofern die Datenbanklogs verfügbar sind.

Console

  1. Rufen Sie die Cloud Data Fusion-Seite Instanzen auf (klicken Sie im CDAP auf Instanzen ansehen) und öffnen Sie die Instanz, in der Sie eine Pipeline anhalten müssen.

    Zur Seite „VM-Instanzen“

  2. Öffnen Sie jede Echtzeitpipeline in Pipeline Studio und klicken Sie auf Stop.

  3. Öffnen Sie jeden Replikationsjob auf der Seite Replikatieren und klicken Sie auf Beenden.

REST API

  • Verwenden Sie den folgenden REST API-Aufruf, um alle Pipelines abzurufen:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
    

    Ersetzen Sie NAMESPACE_ID durch den Namen Ihres Namespace.

  • Verwenden Sie den folgenden REST API-Aufruf, um eine Echtzeitpipeline zu beenden:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
    

    Ersetze NAMESPACE_ID durch den Namen deines Namespace und PIPELINE_NAME durch den Namen der Echtzeitpipeline.

  • Verwenden Sie den folgenden REST API-Aufruf, um einen Replikationsjob zu beenden:

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
    

    Ersetze NAMESPACE_ID durch den Namen deines Namespace und REPLICATION_JOB_NAME durch den Namen des Replikationsjobs.

    Weitere Informationen finden Sie unter Echtzeitpipelines beenden und Replikationsjobs stoppen.

Standardversion von Dataproc in Cloud Data Fusion prüfen und überschreiben

  1. Rufen Sie in der Google Cloud Console die Seite Instanzen auf. Klicken Sie im CDAP auf Instanzen ansehen und öffnen Sie die Instanz.

    Zur Seite „VM-Instanzen“

  2. Klicke auf System Admin > Konfiguration > Systemeinstellungen.

    Systemeinstellungen bearbeiten

  3. Wenn ein Dataproc-Image nicht in den Systemeinstellungen angegeben ist oder Sie die Einstellung ändern möchten, klicken Sie auf Systemeinstellungen bearbeiten.

    1. Geben Sie in das Feld Schlüssel den folgenden Text ein:

      system.profile.properties.imageVersion

    2. Geben Sie das gewünschte Dataproc-Image in das Feld "Value" (Wert) ein, z. B. 1.5-debian10.

    3. Klicken Sie auf Speichern & Schließen.

Einstellungen für System festlegen

Diese Änderung wirkt sich auf die gesamte Cloud Data Fusion-Instanz aus, einschließlich aller Namespaces und Pipelineausführungen, es sei denn, die Image-Versionseigenschaft wird in einem Namespace, einer Pipeline oder einem Runtime-Argument in Ihrer Instanz überschrieben.

Dataproc-Image-Version in einem Namespace oder Pipeline-Laufzeitargument ändern

Wenn Sie die Dataproc-Image-Version in den Namespace-Einstellungen oder in den Laufzeitargumenten der Pipeline nicht überschrieben haben, können Sie diese Schritte überspringen.

Namespace-Einstellungen

Wenn Sie die Image-Version in den Namespace-Eigenschaften überschrieben haben, gehen Sie so vor:

  1. Öffnen Sie die Instanz in der Cloud Data Fusion-UI.

  2. Klicken Sie auf System Admin > Konfiguration >Namespaces.

  3. Öffnen Sie die einzelnen Namespaces und klicken Sie auf Einstellungen.

    1. Achte darauf, dass der Schlüssel system.profile.properties.imageVersion nicht mit einem falschen Image-Versionswert überschrieben wird.

    2. Klicken Sie auf Finish (Beenden).

Pipeline-Laufzeitargumente

Wenn Sie die Image-Version mit einem Attribut in den Laufzeitargumenten Ihrer Pipeline überschrieben haben, gehen Sie so vor:

  1. Öffnen Sie die Instanz in der Cloud Data Fusion-UI.

  2. Klicken Sie auf Pipeline > Liste und wählen Sie die gewünschte Pipeline aus.

    Die Pipeline wird auf der Seite Pipeline Studio geöffnet.

  3. Klicken Sie auf das Drop-down-Menü neben Ausführen.

    Das Fenster Laufzeitargumente wird geöffnet.

  4. Achte darauf, dass der Schlüssel system.profile.properties.imageVersion und der Wert der Image-Version nicht überschrieben werden.

  5. Klicken Sie auf Speichern.

    Pipeline-Laufzeitargument festlegen

Statische Dataproc-Cluster erstellen, die von Cloud Data Fusion verwendet werden, mit der gewünschten Image-Version

Wenn Sie vorhandene Dataproc-Cluster mit Cloud Data Fusion verwenden, folgen Sie der Dataproc-Anleitung, um die Cluster mit der gewünschten Dataproc-Image-Version für Ihre Cloud Data Fusion-Version neu zu erstellen.

Wenn beim Neustart des Clusters Pipelines ausgeführt werden, schlagen die Pipelines fehl. Nachfolgende Ausführungen sollten im neu erstellten Cluster ausgeführt werden.

Alternativ können Sie einen neuen Dataproc-Cluster mit der gewünschten Dataproc-Image-Version erstellen und das Compute-Profil in Cloud Data Fusion mit dem gleichen Compute-Profilnamen und dem aktualisierten Dataproc-Clusternamen löschen und neu erstellen. So kann die Ausführung von Batchpipelines auf dem vorhandenen Cluster ausgeführt werden. Außerdem werden im neuen Dataproc-Cluster neue Pipelineausführungen ausgeführt. Sie können den alten Dataproc-Cluster löschen, nachdem Sie bestätigt haben, dass alle Pipelineausführungen abgeschlossen sind.

Prüfen Sie, ob die Dataproc-Image-Version aktualisiert wurde

Console

  1. Rufen Sie in der Google Cloud Console die Dataproc-Seite Cluster auf.

    Zu den Clustern

  2. Öffnen Sie die Seite Clusterdetails für den neuen Cluster, den Cloud Data Fusion erstellt hat, als Sie die neue Version angegeben haben.

    Das Feld Image-Version hat den neuen Wert, den Sie in Cloud Data Fusion angegeben haben.

REST API

  1. Rufen Sie die Liste der Cluster mit ihren Metadaten ab:

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
    

    Ersetzen Sie Folgendes:

    • NAMESPACE_ID durch den Namen Ihres Namespace
    • REGION_ID durch den Namen der Region, in der sich Ihre Cluster befinden
  2. Suchen Sie nach dem Namen Ihrer Pipeline (Clustername).

  3. Unter diesem JSON-Objekt sehen Sie das Bild in config > softwareConfig > imageVersion.