Quando ativa o armazenamento em cache do cluster do Dataproc, o cluster armazena em cache os dados do Cloud Storage acedidos frequentemente pelas suas tarefas do Spark.
Vantagens
- Desempenho melhorado: a colocação em cache pode melhorar o desempenho das tarefas, reduzindo a quantidade de tempo gasto na obtenção de dados do armazenamento.
- Custos de armazenamento reduzidos: uma vez que os dados frequentes são colocados em cache no disco local, são feitas menos chamadas à API para o armazenamento para obter dados.
- Aplicabilidade das tarefas do Spark: quando o armazenamento em cache de clusters está ativado num cluster, aplica-se a todas as tarefas do Spark executadas no cluster, quer sejam enviadas para o serviço Dataproc ou executadas de forma independente no cluster.
Limitações e requisitos
- A colocação em cache aplica-se apenas a tarefas do Dataproc Spark.
- Apenas os dados do Cloud Storage são colocados em cache.
- O armazenamento em cache aplica-se apenas a clusters que cumprem os seguintes requisitos:
- O cluster tem um mestre e
n
trabalhadores (os clusters de alta disponibilidade (HA) e de nó único não são suportados). - Esta funcionalidade está disponível nas versões de imagens do Dataproc no Compute Engine
2.0.72+
,2.1.20+
e2.2.0+
. - Cada nó do cluster tem de ter SSDs locais associados à interface NVME (Non-Volatile Memory Express) (os discos persistentes (PDs) não são suportados). Os dados são colocados em cache apenas em SSDs locais NVME.
- O cluster usa a conta de serviço da VM predefinida para autenticação. As contas de serviço de VMs personalizadas não são suportadas.
- O cluster tem um mestre e
Ative o armazenamento em cache de clusters
Pode ativar o armazenamento em cache de clusters quando cria um cluster do Dataproc através da Google Cloud consola, da CLI do Google Cloud ou da API Dataproc.
Google Cloud consola
- Abra a página do Dataproc Crie um cluster no Compute Engine na Google Cloud consola.
- O painel Configurar cluster está selecionado. Na secção Melhorias no desempenho do Spark, selecione Ativar colocação em cache do Google Cloud Storage.
- Depois de confirmar e especificar os detalhes do cluster nos painéis de criação do cluster, clique em Criar.
CLI gcloud
Execute o comando gcloud dataproc clusters create
localmente numa janela de terminal ou no
Cloud Shell
usando a dataproc:dataproc.cluster.caching.enabled=true
propriedade do cluster.
Exemplo:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API REST
Defina SoftwareConfig.properties
para incluir a "dataproc:dataproc.cluster.caching.enabled": "true"
propriedade do cluster
como parte de um pedido
clusters.create.