Colocação em cache de clusters

Quando ativa o armazenamento em cache do cluster do Dataproc, o cluster armazena em cache os dados do Cloud Storage acedidos frequentemente pelas suas tarefas do Spark.

Vantagens

  • Desempenho melhorado: a colocação em cache pode melhorar o desempenho das tarefas, reduzindo a quantidade de tempo gasto na obtenção de dados do armazenamento.
  • Custos de armazenamento reduzidos: uma vez que os dados frequentes são colocados em cache no disco local, são feitas menos chamadas à API para o armazenamento para obter dados.
  • Aplicabilidade das tarefas do Spark: quando o armazenamento em cache de clusters está ativado num cluster, aplica-se a todas as tarefas do Spark executadas no cluster, quer sejam enviadas para o serviço Dataproc ou executadas de forma independente no cluster.

Limitações e requisitos

Ative o armazenamento em cache de clusters

Pode ativar o armazenamento em cache de clusters quando cria um cluster do Dataproc através da Google Cloud consola, da CLI do Google Cloud ou da API Dataproc.

Google Cloud consola

  • Abra a página do Dataproc Crie um cluster no Compute Engine na Google Cloud consola.
  • O painel Configurar cluster está selecionado. Na secção Melhorias no desempenho do Spark, selecione Ativar colocação em cache do Google Cloud Storage.
  • Depois de confirmar e especificar os detalhes do cluster nos painéis de criação do cluster, clique em Criar.

CLI gcloud

Execute o comando gcloud dataproc clusters create localmente numa janela de terminal ou no Cloud Shell usando a dataproc:dataproc.cluster.caching.enabled=true propriedade do cluster.

Exemplo:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...
  

API REST

Defina SoftwareConfig.properties para incluir a "dataproc:dataproc.cluster.caching.enabled": "true" propriedade do cluster como parte de um pedido clusters.create.