Depois de criar um cluster, pode pará-lo e, em seguida, reiniciá-lo quando precisar. A paragem de um cluster inativo evita a incorrência de custos e evita a necessidade de eliminar um cluster inativo e, em seguida, criar um cluster com a mesma configuração mais tarde.
Notas:
- A funcionalidade de início e paragem de clusters está disponível em clusters criados com imagens lançadas nas seguintes versões de imagens ou após estas:
- 1.4.35-debian10/ubuntu18
- 1.5.10-debian10/ubuntu18
- 2.0.0-RC6-debian10/ubuntu18
- Não é recomendável parar nós de cluster individuais, uma vez que o estado de uma VM parada pode não estar sincronizado com o estado do cluster, o que pode resultar em erros.
Parar um cluster
A paragem de um cluster para todas as VMs do Compute Engine do cluster. Não paga pelas VMs enquanto estiverem paradas. No entanto, continua a pagar todos os recursos de cluster associados, como discos persistentes.
Notas:
- Operações em execução: se um cluster tiver operações em execução, como operações de atualização ou diagnóstico, o pedido de paragem falha.
- Execução de tarefas: se um cluster tiver tarefas em execução, o pedido de paragem é bem-sucedido: as VMs são paradas e as tarefas em execução falham.
- Parar resposta: quando o pedido de paragem devolve uma operação de paragem, o cluster fica no estado
STOPPING
e não é permitido o envio de mais tarefas (os pedidosSubmitJob
falham). - Redimensionamento automático: se parar um cluster com o redimensionamento automático ativado, o redimensionador automático do Dataproc deixa de redimensionar o cluster. Vai retomar o dimensionamento do cluster assim que o cluster for reiniciado. Se ativar o redimensionamento automático num cluster parado, a política de redimensionamento automático entra em vigor assim que o cluster for reiniciado.
Monitorizar a operação de paragem
Pode executar
gcloud dataproc operations describe operation-id
para monitorizar a operação de paragem do cluster de execução prolongada. Pode usar o comando
gcloud dataproc clusters describe cluster-name
para monitorizar a transição do estado do cluster de
RUNNING
para STOPPING
e, em seguida, para STOPPED
.
Limitações
Não pode parar:
- clusters com trabalhadores secundários
- clusters com SSDs locais
Depois de parar um cluster, não pode:
- atualizar o cluster
- enviar tarefas para o cluster
- aceder aos blocos de notas em execução no cluster através do gateway de componentes do Dataproc
Iniciar um cluster
Quando reinicia um cluster parado, as ações de inicialização não são executadas novamente. As ações de inicialização só são executadas em nós do cluster quando o cluster é criado ou quando são adicionados nós quando o cluster é dimensionado.
Após a conclusão da operação de início, pode enviar imediatamente tarefas para o cluster. No entanto, a execução das tarefas pode ser atrasada, aproximadamente, 30 segundos, para permitir que o HDFS e o YARN fiquem operacionais.
Como parar e iniciar um cluster
Pode parar e iniciar um cluster através da Google Cloud consola, da CLI gcloud ou da API Dataproc.
Google Cloud consola
Clique no nome do cluster na página Clusters do Dataproc na Google Cloud consola e, de seguida, clique em STOP para parar e START para iniciar o cluster.
CLI gcloud
Pare um cluster
gcloud dataproc clusters stop CLUSTER_NAME \ --region=REGION
Inicie um cluster
gcloud dataproc clusters start CLUSTER_NAME \ --region=REGION
API REST
Pare um cluster
Envie um pedido clusters.stop.
Inicie um cluster
Envie um pedido de clusters.start.