Dataproc verwendet Images, um nützliche Google Cloud Platform-Connectors sowie Apache Spark- und Apache Hadoop-Komponenten zu einem Paket zusammenzufassen, das in einem Dataproc-Cluster bereitgestellt werden kann. Diese Images enthalten das Basis-Betriebssystem (Debian oder Ubuntu) für den Cluster sowie Kernkomponenten und optionale Komponenten, die für die Ausführung von Jobs erforderlich sind, z. B. Spark, Hadoop und Hive. Diese Bilder werden regelmäßig aktualisiert, um neue Verbesserungen und Funktionen. Mit der Dataproc-Versionsverwaltung können Sie beim Erstellen von Clustern Sätze von Softwareversionen auswählen.
So funktioniert die Versionierung
Images erhalten bei ihrer Erstellung eine Image-Versionsnummer im folgenden Format:
version_major.version_minor.version_sub_minor-os_distribution
Die folgenden Betriebssystem-Distributionen werden derzeit gepflegt:
Betriebssystem-Distributionscode | Betriebssystem-Distribution |
---|---|
debian12 | Debian 12 |
debian10 | Debian 10 |
debian11 | Debian 11 |
rocky8 | Rocky Linux 8 |
rocky9 | Rocky Linux 9 |
ubuntu18 | Ubuntu 18.04 LTS |
ubuntu20 | Ubuntu 20.04 LTS |
ubuntu22 | Ubuntu 22.04 LTS |
Weitere Informationen zu zuvor unterstützten Betriebssystem-Distributionen finden Sie unter Alte Image-Versionen.
Die empfohlene Vorgehensweise besteht darin, die Image-Version major.minor
für Produktionsumgebungen oder in dem Fall anzugeben, dass die Kompatibilität mit bestimmten Komponentenversionen wichtig ist. Die Sub-Minor- und Betriebssystem-Distributionen werden automatisch
auf den neuesten wöchentlichen Release eingestellt.
Versionen auswählen
Wenn Sie einen neuen Dataproc-Cluster erstellen, wird der neueste verfügbare
Standardmäßig werden Debian-Image-Versionen verwendet. Sie können eine
Debian-, Rocky Linux- oder Ubuntu-Image-Version (siehe
Dataproc-Image-Versionsliste).
Bei der Angabe von Debian-basierten Images können Sie das Suffix für den Betriebssystem-Distributionscode weglassen, indem Sie beispielsweise 2.0
angeben, um das Image 2.0-debian10
auszuwählen.
Das Betriebssystemsuffix muss zur Auswahl eines Rocky Linux- oder
Ubuntu-basiertes Image, z. B. durch Angabe von 2.0-ubuntu18
.
gcloud-Befehl
Wenn Sie den Befehl gcloud dataproc clusters create
verwenden, können Sie mit dem Argument --image-version
eine Image-Version für den neuen Cluster angeben.
Beispiel für ein Debian-Image:
gcloud dataproc clusters create cluster-name \ --image-version=2.0 \ --region=region
Beispiel für ein Ubuntu-Image:
gcloud dataproc clusters create cluster-name \ --image-version=2.0-ubuntu18 \ --region=region
Es empfiehlt sich, die Sub-Minor-Version damit die neueste Sub-Minor-Version verwendet wird. Bei Bedarf kann die Sub-Minor-Version jedoch angegeben werden, z. B. „2.0.20“.
Sie können Ihre aktuelle Version mit der Google Cloud CLI prüfen.
gcloud dataproc clusters describe cluster-name \ --region=region
REST API
Sie können das imageVersion-Feld SoftwareConfig
als Teil einer cluster.create-API-Anfrage angeben.
Beispiel
POST /v1/projects/project-id/regions/us-central1/clusters/ { "projectId": "project-id", "clusterName": "example-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-b" }, "masterConfig": { ... } }, "workerConfig": { ... } }, "softwareConfig": { "imageVersion": "2.0" } } }
Console
Öffnen Sie die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt. Im Bereich „Image Type” und „Version” wird im Abschnitt „Versioning” das Image angezeigt, das beim Erstellen des Clusters verwendet wird. Das Veröffentlichungsdatum des Images wird ebenfalls angezeigt. Anfänglich wird das Standard-Image, die neueste verfügbare Debian-Version, angezeigt. Klicken Sie auf ÄNDERN, um eine Liste der verfügbaren Bilder aufzurufen. Sie können ein Standard- oder benutzerdefiniertes Image für Ihren Cluster auswählen.
Wann neue Versionen erstellt werden
Neue Hauptversionen werden regelmäßig erstellt, um mindestens eines der folgenden Elemente:
- Hauptversionen für:
- Spark, Hadoop und andere Big Data-Komponenten
- Google Cloud-Connectors
- Größere Änderungen oder Aktualisierungen an der Dataproc-Funktionalität
Neue Vorschauversionen (mit dem Suffix -RC
) werden vor der Veröffentlichung veröffentlicht
einer neuen Hauptversion:
- Vorschaubilder sind nicht zur Verwendung in Produktionsarbeitslasten vorgesehen.
- Komponentenversionen von Vorschau-Images können auf die neueste verfügbare Komponentenversion in der GA-Image-Version nach der Vorabversion aktualisiert werden.
Neue Nebenversionen werden regelmäßig erstellt, um mindestens eine der folgenden Komponenten einzubeziehen:
- Nebenversionen und Aktualisierungen für:
- Spark, Hadoop und andere Big Data-Komponenten
- Google Cloud-Connectors
- Geringfügige Änderungen oder Aktualisierungen an der Dataproc-Funktionalität
Wenn eine Nebenversion neu erstellt wird, wird deren Debian-Image zum Standard der Hauptversion und stellt den neuesten Release der Hauptversion dar.
Neue Sub-Minor-Versionen werden regelmäßig erstellt, um mindestens eines der folgenden Elemente:
- Patches oder Korrekturen für eine Komponente im Image
- Upgrades der Sub-Minor-Komponentenversion
Unterstützung für Image-Version und Dataproc
Nebenversionen des Image werden nach dem ersten GA-Release (General Availability, allgemeine Verfügbarkeit) für 24 Monate unterstützt. Während dieses Zeitraums werden Cluster, die diese Image-Versionen sind supportberechtigt. (Um Korrekturen zu erhalten, erstellen Sie Ihren Cluster neu. unter Verwendung der neuesten unterstützten Sub-Minor-Image-Version). Nachdem das Support-Fenster geschlossen wurde, sind Cluster, die diese Image-Versionen verwenden, nicht mehr supportberechtigt.
Alte Image-Versionen
Zuvor unterstützte Betriebssystem-Distributionen
Die folgenden Betriebssystem-Distributionen wurden zuvor unterstützt:
Betriebssystem-Distributionscode | Betriebssystem-Distribution | Letzter Patch (Ende des Supports) |
---|---|---|
debian9 | Debian 9 | 10. Juli 2020 |
deb8 | Debian 8 | 26. Oktober 2018 |
Image-Versionen ohne explizite Betriebssystem-Distribution
Vor dem 16. August 2018 wurden Image-Versionen mit Debian 8 erstellt und der Betriebssystem-Distributionscode wurde weggelassen. Sie werden in folgendem Format angegeben:
version_major.version_minor.version_sub_minor
0.1 und 0.2
Image-Versionen, die vor der allgemeinen Verfügbarkeit von Cloud Dataproc Version 1.0
als Alpha- oder Betaversionen veröffentlicht wurden, unterliegen nicht den Supportrichtlinien von Cloud Dataproc.
Wichtige Hinweise zu Versionen
- Imageversionen enthalten die folgenden Komponenten:
- Kernkomponenten, die installiert in allen Clustern wie Spark, Hadoop und Hive
- Optionale Komponenten die Sie beim Erstellen eines Clusters angeben
- Ihre Dataproc-Cluster werden nicht automatisch aktualisiert, wenn neue Image-Versionen veröffentlicht werden.
- Empfehlungen:
- Cluster mit den neuesten
Sub-Minor-Image-Version
Die Image-Metadaten enthalten ein
previous-subminor
-Label, das auftrue
gesetzt wird, wenn im Cluster nicht die neueste Subminor-Imageversion verwendet wird.- So rufen Sie die Bildmetadaten auf:
- Führen Sie folgenden Befehl aus:
gcloud compute images list --filter
Befehl zum Auflisten des Ressourcennamens eines Dataproc-Images.gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as
2.2.16-debian12
)" - Führen Sie den folgenden
gcloud compute images describe
-Befehl aus, um die Bildmetadaten aufzurufen.gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
- Führen Sie folgenden Befehl aus:
- So rufen Sie die Bildmetadaten auf:
- Testen und validieren Sie, ob Ihre Anwendungen erfolgreich auf Clustern ausgeführt werden, die mit neue Image-Versionen zu erstellen, insbesondere wenn neue Hauptversionen von Images verwendet werden.