I cluster a nodo singolo sono cluster Dataproc con un solo nodo. Questo nodo singolo agisce da master e worker per il cluster Dataproc. Sebbene i cluster a nodo singolo abbiano un solo nodo, continuano a essere applicati i concetti e le funzionalità di Dataproc, ad eccezione di quelli elencati di seguito.
Esistono numerose situazioni in cui i cluster Dataproc a nodo singolo possono essere utili, tra cui:
- Prova delle nuove versioni di Spark e Hadoop o di altri componenti open source
- Creazione di dimostrazioni proof of concept (PDC)
- Data science leggera
- Elaborazione dati non critica su scala ridotta
- Istruzione legata all'ecosistema Spark e Hadoop
Semantica del cluster a nodo singolo
La seguente semantica si applica ai cluster Dataproc a nodo singolo:
- I cluster a nodo singolo sono configurati come cluster Dataproc multinodo e includono servizi come HDFS e YARN.
- I cluster a nodo singolo vengono segnalati come nodi master per le azioni di inizializzazione.
- I cluster a nodo singolo mostrano 0 worker, poiché il nodo singolo agisce sia come master che come worker.
- Ai cluster a nodo singolo vengono assegnati nomi host che seguono il pattern
clustername-m
. Puoi utilizzare questo nome host per connetterti tramite SSH o connetterti a un'interfaccia utente web sul nodo. - Non è possibile eseguire l'upgrade di cluster a nodo singolo a cluster a più nodi. Una volta creati, i cluster a nodo singolo sono limitati a un nodo. Analogamente, non è possibile fare lo scale down dei cluster multinodo a cluster a nodo singolo.
Limitazioni
I cluster a nodo singolo non sono consigliati per l'elaborazione dei dati parallela su larga scala. Se superi le risorse in un cluster a nodo singolo, è consigliato un cluster Dataproc multinodo.
I cluster a nodo singolo non sono disponibili con alta disponibilità poiché esiste un solo nodo nel cluster.
I cluster a nodo singolo non possono utilizzare VM prerilasciabili.
Creazione di un cluster a nodo singolo
Comando g-cloud
Puoi creare un cluster Dataproc a nodo singolo utilizzando lo strumento a riga di comando gcloud
. Per creare un cluster a nodo singolo, passa il flag --single-node
al comando gcloud dataproc clusters create.
gcloud dataproc clusters create cluster-name \ --region=region \ --single-node \ ... other args
API REST
Puoi creare un cluster a nodo singolo tramite l'API REST Dataproc utilizzando una richiesta clusters.create. Quando effettui questa richiesta, devi:
- Aggiungi la proprietà
"dataproc:dataproc.allow.zero.workers":"true"
a SoftwareConfig della richiesta di cluster. - Non inviare valori per
workerConfig
esecondaryWorkerConfig
(vedi ClusterConfig).
Console
Puoi creare un cluster a nodo singolo selezionando "Nodo singolo (1 master, 0 worker)" nella sezione Tipo di cluster del riquadro Configura cluster nella pagina Crea un cluster di Dataproc.