Dataproc-Versionsverwaltung

Dataproc verwendet Images, um nützliche Google Cloud Platform-Connectors sowie Apache Spark- und Apache Hadoop-Komponenten zu einem Paket zusammenzufassen, das in einem Dataproc-Cluster bereitgestellt werden kann. Diese Images enthalten das Basis-Betriebssystem (Debian oder Ubuntu) für den Cluster sowie Kernkomponenten und optionale Komponenten, die für die Ausführung von Jobs erforderlich sind, z. B. Spark, Hadoop und Hive. Diese Images werden regelmäßig aktualisiert, um neue Verbesserungen und Funktionen zu enthalten. Mit der Dataproc-Versionsverwaltung können Sie beim Erstellen von Clustern Sätze von Softwareversionen auswählen.

So funktioniert die Versionierung

Images erhalten bei ihrer Erstellung eine Image-Versionsnummer im folgenden Format:

version_major.version_minor.version_sub_minor-os_distribution

Die folgenden Betriebssystem-Distributionen werden derzeit gepflegt:

Betriebssystem-Distributionscode Betriebssystem-Distribution
debian12 Debian 12
debian10 Debian 10
debian11 Debian 11
rocky8 Rocky Linux 8
rocky9 Rocky Linux 9
ubuntu18 Ubuntu 18.04 LTS
ubuntu20 Ubuntu 20.04 LTS
ubuntu22 Ubuntu 22.04 LTS

Weitere Informationen zu zuvor unterstützten Betriebssystem-Distributionen finden Sie unter Alte Image-Versionen.

Die empfohlene Vorgehensweise besteht darin, die Image-Version major.minor für Produktionsumgebungen oder in dem Fall anzugeben, dass die Kompatibilität mit bestimmten Komponentenversionen wichtig ist. Die Sub-Minor- und Betriebssystem-Distributionen werden automatisch auf den neuesten wöchentlichen Release eingestellt.

Versionen auswählen

Wenn Sie einen neuen Dataproc-Cluster erstellen, wird standardmäßig die neueste verfügbare Debian-Image-Version verwendet. Sie können beim Erstellen eines Clusters eine Debian-, Rocky Linux- oder Ubuntu-Image-Version auswählen (siehe Liste der Dataproc-Image-Versionen). Bei der Angabe von Debian-basierten Images können Sie das Suffix für den Betriebssystem-Distributionscode weglassen, indem Sie beispielsweise 2.0 angeben, um das Image 2.0-debian10 auszuwählen. Das Betriebssystemsuffix muss verwendet werden, um ein Rocky Linux- oder Ubuntu-basiertes Image auszuwählen, z. B. durch Angabe von 2.0-ubuntu18.

gcloud-Befehl

Wenn Sie den Befehl gcloud dataproc clusters create verwenden, können Sie mit dem Argument --image-version eine Image-Version für den neuen Cluster angeben.

Beispiel für ein Debian-Image:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0 \
    --region=region

Beispiel für ein Ubuntu-Image:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0-ubuntu18 \
    --region=region

Es empfiehlt sich, die Sub-Minor-Version wegzulassen, damit die neueste Sub-Minor-Version verwendet wird. Bei Bedarf kann jedoch die Sub-Minor-Version angegeben werden, z. B. "2.0.20".

Sie können Ihre aktuelle Version mit der Google Cloud CLI prüfen.

gcloud dataproc clusters describe cluster-name \
    --region=region

REST API

Sie können das imageVersion SoftwareConfig als Teil einer cluster.create angeben.

Beispiel

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

Console

Öffnen Sie die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt. Im Bereich „Image Type” und „Version” wird im Abschnitt „Versioning” das Image angezeigt, das beim Erstellen des Clusters verwendet wird. Das Veröffentlichungsdatum des Images wird ebenfalls angezeigt. Anfänglich wird das Standard-Image, die neueste verfügbare Debian-Version, angezeigt. Klicken Sie auf ÄNDERN, um eine Liste der verfügbaren Bilder aufzurufen. Sie können ein Standard- oder benutzerdefiniertes Image für Ihren Cluster auswählen.

Wann neue Versionen erstellt werden

Neue Hauptversionen werden regelmäßig erstellt, um mindestens eine der folgenden Komponenten zu integrieren:

  • Hauptversionen für:
    • Spark, Hadoop und andere Big Data-Komponenten
    • Google Cloud-Connectors
  • Größere Änderungen oder Aktualisierungen an der Dataproc-Funktionalität

Neue preview-Versionen (mit dem Suffix -RC) werden vor der Veröffentlichung einer neuen Hauptversion veröffentlicht:

  • Vorschaubilder sind nicht für die Verwendung in Produktionsarbeitslasten gedacht.
  • Die Komponentenversionen des Vorschaubilds können auf die neueste verfügbare Komponentenversion in der GA-Image-Version nach der Vorschau aktualisiert werden.

Neue Nebenversionen werden regelmäßig erstellt, um mindestens eine der folgenden Komponenten zu integrieren:

  • Nebenversionen und Updates für:
    • Spark, Hadoop und andere Big Data-Komponenten
    • Google Cloud-Connectors
  • Geringfügige Änderungen oder Aktualisierungen an der Dataproc-Funktionalität

Wenn eine Nebenversion neu erstellt wird, wird deren Debian-Image zum Standard der Hauptversion und stellt den neuesten Release der Hauptversion dar.

Neue Sub-Minor-Versionen werden regelmäßig erstellt, um mindestens eines der folgenden Elemente einzubinden:

  • Patches oder Korrekturen für eine Komponente im Image
  • Upgrades der Sub-Minor-Version von Komponenten

Unterstützung für Image-Version und Dataproc

Nebenversionen des Image werden nach dem ersten GA-Release (General Availability, allgemeine Verfügbarkeit) für 24 Monate unterstützt. Während dieser Zeit haben Cluster, die diese Image-Versionen verwenden, Anspruch auf Support. Um Korrekturen zu erhalten, müssen Sie den Cluster mit der neuesten unterstützten Sub-Minor-Image-Version neu erstellen. Nachdem das Support-Fenster geschlossen wurde, sind Cluster, die diese Image-Versionen verwenden, nicht mehr supportberechtigt.

Alte Image-Versionen

Zuvor unterstützte Betriebssystem-Distributionen

Die folgenden Betriebssystem-Distributionen wurden zuvor unterstützt:

Betriebssystem-Distributionscode Betriebssystem-Distribution Letzter Patch (Ende des Supports)
debian9 Debian 9 10. Juli 2020
deb8 Debian 8 26. Oktober 2018

Image-Versionen ohne explizite Betriebssystem-Distribution

Vor dem 16. August 2018 wurden Image-Versionen mit Debian 8 erstellt und der Betriebssystem-Distributionscode wurde weggelassen. Sie werden in folgendem Format angegeben:

version_major.version_minor.version_sub_minor

0.1 und 0.2

Image-Versionen, die vor der allgemeinen Verfügbarkeit von Cloud Dataproc Version 1.0 als Alpha- oder Betaversionen veröffentlicht wurden, unterliegen nicht den Supportrichtlinien von Cloud Dataproc.

Wichtige Hinweise zu Versionen

  • Image-Versionen enthalten die folgenden Komponenten:
  • Die Dataproc-Cluster werden nicht automatisch aktualisiert, wenn neue Image-Versionen veröffentlicht werden.
    • Empfehlungen:
    • Führen Sie Cluster mit der neuesten Sub-Minor-Image-Version aus. Image-Metadaten enthalten das Label previous-subminor, das auf true gesetzt ist, wenn der Cluster nicht die neueste Sub-Minor-Image-Version verwendet.
      • So rufen Sie Bildmetadaten auf:
        1. Führen Sie den folgenden gcloud compute images list --filter-Befehl aus, um den Ressourcennamen eines Dataproc-Images aufzulisten.
          gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as 2.2.16-debian12)"
          
        2. Führen Sie den folgenden Befehl gcloud compute images describe aus, um die Image-Metadaten aufzurufen.
          gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
          
    • Testen und validieren Sie, ob Ihre Anwendungen erfolgreich in Clustern ausgeführt werden, die mit neuen Image-Versionen erstellt wurden, insbesondere wenn neue Image-Hauptversionen verwendet werden.