Komponenten von Cloud Dataproc

Beim Erstellen eines Clusters werden dort automatisch Komponenten des Apache Hadoop-Systems installiert. Informationen dazu finden Sie in der Liste der Cloud Dataproc-Versionen. Sie können beim Erstellen des Clusters auch zusätzliche Komponenten, sogenannte "optionale Komponenten", im Cluster installieren. Das Hinzufügen von optionalen Komponenten zu einem Cluster ist vergleichbar mit dem Hinzufügen von Komponenten mithilfe von Initialisierungsaktionen. Es gibt jedoch die folgenden Vorteile:

  • Kürzere Cluster-Startzeiten.
  • Getestete Kompatibilität mit bestimmten Dataproc-Versionen.
  • Verwendung eines Clusterparameters statt eines Skripts mit Initialisierungsaktionen.
  • Optionale Komponenten sind in andere Dataproc-Komponenten eingebunden. Wenn beispielsweise Anaconda und Zeppelin in einem Cluster installiert sind, verwendet Zeppelin den Python-Interpreter und die Bibliotheken von Anaconda.

Optionale Komponenten können zu Clustern hinzugefügt werden, die mit Dataproc Version 1.3 oder höher erstellt wurden.

Verfügbare optionale Komponenten

Optionale Komponente COMPONENT_NAME
in gcloud-Befehlen und API-Anfragen
Image-Version Releasestufe
Anaconda ANACONDA 1.3 oder höher
(nicht in Vorschau 2.0 verfügbar)
GA
Druid DRUID 1.3 oder höher Alpha
HBase HBASE 1.5 oder höher Beta
Hive WebHCat HIVE_WEBHCAT 1.3 oder höher GA
Jupyter-Notebook JUPYTER 1.3 oder höher GA
Presto PRESTO 1.3 oder höher GA
Ranger RANGER 1.3 oder höher Beta
Solr SOLR 1.3 oder höher Beta
Zeppelin-Notebook ZEPPELIN 1.3 oder höher GA
Zookeeper ZOOKEEPER 1.0 oder höher GA

Optionale Komponenten hinzufügen

gcloud-Befehl

Verwenden Sie zum Erstellen eines Dataproc-Clusters und zur Installation einer oder mehrerer optionaler Komponenten im Cluster den Befehl gcloud beta dataproc clusters create cluster-name mit dem Flag --optional-components.

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

Optionale Komponenten können über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Console

Öffnen Sie in der Cloud Console die Dataproc-Seite Cluster erstellen. Klicken Sie unten auf der Seite auf "Advanced Options" (Erweiterte Optionen), um den Abschnitt "Optional Components" (Optionale Komponenten) aufzurufen.

Klicken Sie auf "Select component" (Komponente auswählen), um den Auswahlbereich Optional components (Optionale Komponenten) aufzurufen. Wählen Sie eine oder mehrere Komponenten für die Installation im Cluster aus.