Cluster mit einzelnem Knoten

Einzelknotencluster sind Dataproc-Cluster mit nur einem Knoten. Der einzelne Knoten fungiert als Master und Worker für den Dataproc-Cluster. Obwohl Einzelknotencluster nur einen Knoten haben, sind die meisten Dataproc-Konzepte und -Funktionen weiter relevant. Ausnahmen sind in der Liste unten aufgeführt.

Dataproc-Cluster mit nur einem Knoten können in vielen Situationen sinnvoll sein:

  • Beim Testen neuer Versionen von Spark und Hadoop sowie anderen Open-Source-Komponenten
  • Beim Erstellen von PoC-Demonstrationen (Proof of Concept)
  • Leichtere Projekte im Bereich Data Science
  • Nicht kritische Datenverarbeitung in kleinem Umfang
  • Schulungen zum Spark- und Hadoop-Ökosystem

Semantik von Clustern mit einzelnem Knoten

Die folgende Semantik bezieht sich auf Dataproc-Cluster mit nur einem Knoten.

  • Cluster mit nur einem Knoten werden auf dieselbe Weise wie Dataproc-Cluster mit mehreren Knoten konfiguriert und umfassen Dienste wie HDFS und YARN.
  • Cluster mit einzelnem Knoten werden als Masterknoten für Initialisierungsaktionen angegeben.
  • Bei Clustern mit einem einzelnen Knoten werden 0 Worker angezeigt, da der einzelne Knoten sowohl als Master als auch als Worker fungiert.
  • Cluster mit nur einem Knoten erhalten Hostnamen gemäß dem Muster clustername-m. Mit diesem Hostnamen können Sie eine SSH-Verbindung oder eine Verbindung zur Web-UI auf dem Knoten erstellen.
  • Cluster mit einzelnem Knoten können nicht auf Cluster mit mehreren Knoten aufgerüstet werden. Cluster mit einzelnem Knoten sind nach ihrer Erstellung auf einen einzigen Knoten beschränkt. Cluster mit mehreren Knoten können nicht auf Cluster mit einzelnem Knoten herunterskaliert werden.

Beschränkungen

  • Cluster mit einem einzelnen Knoten werden nicht für die parallele Datenverarbeitung in großem Umfang empfohlen. Wenn Sie die Ressourcen für einen Cluster mit nur einem Knoten überschreiten, wird ein Dataproc-Cluster mit mehreren Knoten empfohlen.
  • n1-standard-1-Maschinentypen haben begrenzte Ressourcen und werden für YARN-Anwendungen nicht empfohlen.
  • Cluster mit einem einzelnen Knoten werden nicht mit hoher Verfügbarkeit angeboten, da der Cluster nur einen Knoten enthält.
  • Cluster mit einzelnem Knoten können keine VMs auf Abruf verwenden.

Einen Cluster mit einem einzelnen Knoten erstellen

gcloud-Befehl

Sie können Dataproc-Cluster mit nur einem Knoten mit dem gcloud-Befehlszeilentool erstellen. Um einen Cluster mit nur einem Knoten zu erstellen, übergeben Sie das Flag --single-node and den Befehl gcloud dataproc clusters create.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

REST API

Sie können Einzelknotencluster über die Dataproc REST API mithilfe der Anfrage clusters.create erstellen. Gehen Sie beim Erstellen der Anfrage so vor:

  1. Fügen Sie der SoftwareConfig der Clusteranfrage das Attribut "dataproc:dataproc.allow.zero.workers":"true" hinzu.
  2. Senden Sie keine Werte für workerConfig und secondaryWorkerConfig (siehe ClusterConfig).

Console

Um einen Einzelknotencluster zu erstellen, wählen Sie auf der Dataproc-Seite Cluster erstellen im Auswahlmenü Clustermodus die Option "Einzelner Knoten (1 Master, 0 Worker)" aus.