Pare e inicie clusters do Dataproc

Depois de criar um cluster, pode pará-lo e, em seguida, reiniciá-lo quando precisar. A paragem de um cluster inativo evita a incorrência de custos e evita a necessidade de eliminar um cluster inativo e, em seguida, criar um cluster com a mesma configuração mais tarde.

Notas:

  • A funcionalidade de início e paragem de clusters está disponível em clusters criados com imagens lançadas nas seguintes versões de imagens ou após estas:
    • 1.4.35-debian10/ubuntu18
    • 1.5.10-debian10/ubuntu18
    • 2.0.0-RC6-debian10/ubuntu18
  • Não é recomendável parar nós de cluster individuais, uma vez que o estado de uma VM parada pode não estar sincronizado com o estado do cluster, o que pode resultar em erros.

Parar um cluster

A paragem de um cluster para todas as VMs do Compute Engine do cluster. Não paga pelas VMs enquanto estiverem paradas. No entanto, continua a pagar todos os recursos de cluster associados, como discos persistentes.

Notas:

  • Operações em execução: se um cluster tiver operações em execução, como operações de atualização ou diagnóstico, o pedido de paragem falha.
  • Execução de tarefas: se um cluster tiver tarefas em execução, o pedido de paragem é bem-sucedido: as VMs são paradas e as tarefas em execução falham.
  • Parar resposta: quando o pedido de paragem devolve uma operação de paragem, o cluster fica no estado STOPPING e não é permitido o envio de mais tarefas (os pedidos SubmitJob falham).
  • Redimensionamento automático: se parar um cluster com o redimensionamento automático ativado, o redimensionador automático do Dataproc deixa de redimensionar o cluster. Vai retomar o dimensionamento do cluster assim que o cluster for reiniciado. Se ativar o redimensionamento automático num cluster parado, a política de redimensionamento automático entra em vigor assim que o cluster for reiniciado.

Monitorizar a operação de paragem

Pode executar gcloud dataproc operations describe operation-id para monitorizar a operação de paragem do cluster de execução prolongada. Pode usar o comando gcloud dataproc clusters describe cluster-name para monitorizar a transição do estado do cluster de RUNNING para STOPPING e, em seguida, para STOPPED.

Limitações

Iniciar um cluster

  • Quando reinicia um cluster parado, as ações de inicialização não são executadas novamente. As ações de inicialização só são executadas em nós do cluster quando o cluster é criado ou quando são adicionados nós quando o cluster é dimensionado.

  • Após a conclusão da operação de início, pode enviar imediatamente tarefas para o cluster. No entanto, a execução das tarefas pode ser atrasada, aproximadamente, 30 segundos, para permitir que o HDFS e o YARN fiquem operacionais.

Como parar e iniciar um cluster

Pode parar e iniciar um cluster através da Google Cloud consola, da CLI gcloud ou da API Dataproc.

Google Cloud consola

Clique no nome do cluster na página Clusters do Dataproc na Google Cloud consola e, de seguida, clique em STOP para parar e START para iniciar o cluster.

CLI gcloud

Pare um cluster

gcloud dataproc clusters stop CLUSTER_NAME \
    --region=REGION

Inicie um cluster

gcloud dataproc clusters start CLUSTER_NAME \
    --region=REGION

API REST

Pare um cluster

Envie um pedido clusters.stop.

Inicie um cluster

Envie um pedido de clusters.start.