Esta página foi traduzida pela API Cloud Translation.

Armazenamento em cache de cluster

Quando você ativa o armazenamento em cache do cluster do Dataproc, o cluster armazena em cache os dados do Cloud Storage acessados com frequência pelos jobs do Spark.

Vantagens

Melhoria no desempenho:o armazenamento em cache pode melhorar a performance do job, reduzindo o tempo gasto na recuperação de dados do armazenamento.
Custos de armazenamento reduzidos:como os dados ativos são armazenados em cache no disco local, menos chamadas de API são feitas para o armazenamento para recuperar dados.

Limitações e requisitos

A armazenagem em cache se aplica apenas a jobs do Spark do Dataproc.
Somente os dados do Cloud Storage são armazenados em cache.
A armazenagem em cache só se aplica a clusters que atendem aos seguintes requisitos:
- O cluster tem um mestre e n workers. Clusters de alta disponibilidade (HA) e de nó único não são compatíveis.
- Esse recurso está disponível no Dataproc nas versões de imagem 2.0.72+ or 2.1.20+ do Compute Engine.
- Cada nó de cluster precisa ter SSDs locais anexados com a interface NVMe (Non-Volatile Memory Express). Os discos persistentes (PDs) não são compatíveis. Os dados são armazenados em cache apenas em SSDs locais NVME.
- O cluster usa a conta de serviço de VM padrão para autenticação. Contas de serviço de VM personalizadas não são compatíveis.

Ativar o armazenamento em cache do cluster

É possível ativar o armazenamento em cache de cluster ao criar um cluster do Dataproc usando o console do Google Cloud, a Google Cloud CLI ou a API Dataproc.

Console do Google Cloud

Abra a página Criar um cluster no Compute Engine do Dataproc no console do Google Cloud.
O painel Configurar cluster está selecionado. Na seção Melhorias de desempenho do Spark, selecione Ativar o armazenamento em cache do Google Cloud Storage.
Depois de confirmar e especificar os detalhes do cluster nos painéis de criação, clique em Criar.

CLI da gcloud

Execute o comando gcloud dataproc clusters create localmente em uma janela de terminal ou no Cloud Shell usando a dataproc:dataproc.cluster.caching.enabled=true propriedade cluster.

Exemplo:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

API REST

Defina SoftwareConfig.properties para incluir a propriedade do cluster "dataproc:dataproc.cluster.caching.enabled": "true" como parte de uma solicitação clusters.create.