Dataproc-Komponenten

Beim Erstellen eines Clusters werden automatisch Komponenten des Apache Hadoop-Systems auf dem Cluster installiert. Weitere Informationen finden Sie unter Liste der Dataproc-Versionen. Sie können beim Erstellen des Clusters auch zusätzliche Komponenten, sogenannte "optionale Komponenten", im Cluster installieren. Das Hinzufügen von optionalen Komponenten zu einem Cluster ist vergleichbar mit dem Hinzufügen von Komponenten mithilfe von Initialisierungsaktionen. Es gibt jedoch die folgenden Vorteile:

  • Kürzere Cluster-Startzeiten.
  • Getestete Kompatibilität mit bestimmten Dataproc-Versionen.
  • Verwendung eines Clusterparameters statt eines Skripts mit Initialisierungsaktionen.
  • Optionale Komponenten sind in andere Dataproc-Komponenten eingebunden. Wenn beispielsweise Anaconda und Zeppelin in einem Cluster installiert sind, verwendet Zeppelin den Python-Interpreter und die Bibliotheken von Anaconda.

Sie können optionale Komponenten in Cluster einfügen, die mit Dataproc Version 1.3 oder höher erstellt wurden.

Verfügbare optionale Komponenten

Optionale Komponente COMPONENT_NAME
in gcloud-Befehlen und API-Anfragen
Image-Version Releasestufe
Anaconda ANACONDA 1.3 oder höher
(nicht in 2.0 und höher verfügbar)
AV
Docker DOKUMENT 1.5 und höher AV
Druid DRUID 1.3 oder höher Alpha
Flink FLINKEN 1.5 und höher AV
HBase HBA 1.5 und höher Beta
Hive WebHCat HIVE_WEBHCAT 1.3 oder höher AV
Jupyter-Notebook JUPYTER 1.3 oder höher AV
Presto PRESTO 1.3 oder höher AV
Ranger Ford Ranger 1.3 oder höher AV
Solr LÖSEN 1.3 oder höher AV
Zeppelin-Notebook ZEPPELIN 1.3 oder höher AV
Zookeeper ZOOKEEPER 1.0 oder höher AV

Optionale Komponenten hinzufügen

gcloud-Befehl

Verwenden Sie zum Erstellen eines Dataproc-Clusters und zur Installation einer oder mehrerer optionaler Komponenten im Cluster den Befehl gcloud beta dataproc clusters create cluster-name mit dem Flag --optional-components.

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

Optionale Komponenten können über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Console

Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt. Wählen Sie im Abschnitt „Komponenten“ unter „Optionale Komponenten“ eine oder mehrere Komponenten aus, die auf Ihrem Cluster installiert werden sollen.