Cluster a nodo singolo

I cluster a nodo singolo sono cluster Dataproc con un solo nodo. Questo singolo funge da master e worker per il cluster Dataproc. Quando si è single hanno un solo nodo, la maggior parte dei concetti e delle funzionalità di Dataproc continuano a essere valide, ad eccezione di quelli elencati di seguito.

Esistono diverse situazioni in cui i cluster Dataproc a un solo nodo possono essere utili, tra cui:

  • Provare nuove versioni di Spark e Hadoop o altri componenti open source
  • Creazione di dimostrazioni di proof of concept (PoC)
  • Data science leggera
  • Elaborazione di dati non critici su piccola scala
  • Formazione relativa all'ecosistema Spark e Hadoop

Semantica del cluster a nodo singolo

Ai cluster Dataproc a un solo nodo si applicano le seguenti semantiche:

  • I cluster a nodo singolo sono configurati come i cluster Dataproc a più nodi e includono servizi come HDFS e YARN.
  • I cluster a nodo singolo vengono indicati come nodi master azioni di inizializzazione.
  • I cluster a nodo singolo mostrano 0 worker poiché il singolo nodo agisce sia come master sia come worker.
  • Ai cluster a nodo singolo vengono assegnati nomi host che seguono il pattern clustername-m. Puoi utilizzare questo nome host per eseguire SSH o connetterti a un'interfaccia utente web sul nodo.
  • Non è possibile eseguire l'upgrade dei cluster a nodo singolo a cluster multinodo. Una volta creati, i cluster a nodo singolo sono limitati a un nodo. Analogamente, i cluster non è possibile fare lo scale down dei cluster in cluster a nodo singolo.

Limitazioni

  • I cluster a nodo singolo non sono consigliati per l'elaborazione parallela di dati su larga scala. Se superi le risorse di un cluster a un solo nodo, è consigliabile un cluster Dataproc con più nodi.

  • I cluster a nodo singolo non sono disponibili con alta disponibilità poiché c'è un solo nodo nel cluster.

  • I cluster a nodo singolo non possono utilizzare VM prerilasciabili.

Creazione di un cluster a un solo nodo

Comando g-cloud

Puoi creare un cluster Dataproc a un solo nodo utilizzando lo strumento a riga di comando gcloud. Per creare un cluster a nodo singolo, passa --single-node per il gcloud dataproc clusters create .

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

API REST

Puoi creare un cluster a nodo singolo tramite API REST Dataproc che utilizza un clusters.create richiesta. Quando effettui questa richiesta, devi:

  1. Aggiungi la proprietà "dataproc:dataproc.allow.zero.workers":"true" al SoftwareConfig della richiesta di cluster.
  2. Non inviare valori per workerConfig e secondaryWorkerConfig (vedi ClusterConfig).

Console

Puoi creare un cluster a nodo singolo selezionando "Nodo singolo (1 master, 0 worker)" nella sezione Tipo di cluster del riquadro Configura cluster nella pagina Dataproc Crea un cluster.