Clusters de nó único

Clusters de nó único são clusters do Dataproc com apenas um nó. Esse nó único atua como mestre e worker do cluster do Dataproc. Embora os clusters de nó único tenham apenas um nó, a maioria dos conceitos e recursos do Dataproc ainda se aplicam, exceto os listados abaixo.

Há várias situações em que os clusters de nó único do Dataproc podem ser úteis, incluindo:

  • tentativas com novas versões do Spark e Hadoop ou outros componentes de código aberto;
  • criação de demonstrações de prova do conceito (PoC, da sigla em inglês);
  • ciência de dados leves;
  • processamento de dados não críticos em pequena escala;
  • educação relacionada ao ecossistema Spark e Hadoop.

Semântica de cluster de node único

A semântica a seguir se aplica aos clusters de nó único do Dataproc:

  • Os clusters de nó único são configurados da mesma maneira que os clusters de vários nós do Dataproc e incluem serviços como HDFS e YARN.
  • Os clusters de nó único são relatados como nós mestres para as ações de inicialização.
  • Os clusters de node único mostram 0 workers, já que age como mestre e de trabalho.
  • Os clusters de nó único recebem nomes de host que seguem o padrão clustername-m. Você pode usar esse nome de host para rodar SSH ou conectar à IU da Web no nó.
  • Não é possível fazer upgrade dos clusters de node único para clusters de vários nodes. Uma vez criados, os clusters de node único são restritos a um node. Da mesma forma, os clusters de vários nodes não podem ser reduzidos para se tornar clusters de node único.

Limitações

  • Não é recomendável usar clusters de nó único no processamento paralelo de dados em grande escala. Se você exceder os recursos em um cluster de nó único, um cluster de vários nós do Dataproc é recomendado.

  • Os clusters de nó único não têm alta disponibilidade porque há apenas um nó no cluster.

  • Os clusters de nó único não podem usar VMs preemptivas.

Como criar um cluster de node único

Comando gcloud

É possível criar um cluster de nó único do Dataproc usando a ferramenta de linha de comando gcloud. Para criar um cluster de nó único, transmita a sinalização --single-node para o comando gcloud dataproc clusters create.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --single-node \
    ... other args

API REST

É possível criar um cluster de nó único por meio da API REST do Dataproc usando uma solicitação clusters.create. Ao fazer essa solicitação, você precisa:

  1. Adicione a propriedade "dataproc:dataproc.allow.zero.workers":"true" ao SoftwareConfig da solicitação do cluster.
  2. Não envie valores para workerConfig e secondaryWorkerConfig (consulte ClusterConfig).

Console

Para criar um cluster de nó único, selecione "Nó único (1 mestre, 0 workers)" na seção "Tipo de cluster" do painel "Configurar cluster" na página Criar um cluster do Dataproc.