Questa pagina è stata tradotta dall'API Cloud Translation.

Memorizzazione in cache del cluster

Quando abiliti la memorizzazione nella cache del cluster Dataproc, il cluster memorizza nella cache i dati di Cloud Storage a cui accedono di frequente i job Spark.

Vantaggi

Prestazioni migliorate:la memorizzazione nella cache può migliorare le prestazioni dei job riducendo il tempo impiegato per recuperare i dati dallo spazio di archiviazione.
Costi di archiviazione ridotti:poiché i dati attivi vengono memorizzati nella cache sul disco locale, vengono effettuate meno chiamate API all'archiviazione per recuperare i dati.
Applicabilità dei job Spark: quando la memorizzazione nella cache del cluster è abilitata su un cluster, si applica a tutti i job Spark eseguiti sul cluster, indipendentemente dal fatto che siano inviati al servizio Dataproc o eseguiti in modo indipendente sul cluster.

Limitazioni e requisiti

La memorizzazione nella cache si applica solo ai job Spark Dataproc.
Vengono memorizzati nella cache solo i dati di Cloud Storage.
La memorizzazione nella cache si applica solo ai cluster che soddisfano i seguenti requisiti:
- Il cluster ha un master e n worker (i cluster ad alta disponibilità (HA) e a singolo nodo non sono supportati).
- Questa funzionalità è disponibile nelle versioni immagine di Dataproc su Compute Engine 2.0.72+, 2.1.20+ e 2.2.0+.
- Ogni nodo del cluster deve avere SSD locali collegati con l'interfaccia NVME (Non-Volatile Memory Express) (i dischi permanenti non sono supportati). I dati vengono memorizzati nella cache solo sugli SSD locali NVME.
- Il cluster utilizza il service account VM predefinito per l'autenticazione. I service account VM personalizzati non sono supportati.

Abilita la memorizzazione nella cache del cluster

Puoi abilitare la memorizzazione nella cache del cluster quando crei un cluster Dataproc utilizzando la console Google Cloud , Google Cloud CLI o l'API Dataproc.

ConsoleGoogle Cloud

Apri la pagina Dataproc Crea un cluster su Compute Engine nella console Google Cloud .
Il riquadro Configura cluster è selezionato. Nella sezione Miglioramenti delle prestazioni di Spark, seleziona Attiva la memorizzazione nella cache di Google Cloud Storage.
Dopo aver confermato e specificato i dettagli del cluster nei pannelli di creazione del cluster, fai clic su Crea.

Interfaccia a riga di comando gcloud

Esegui il comando gcloud dataproc clusters create localmente in una finestra del terminale o in Cloud Shell utilizzando la dataproc:dataproc.cluster.caching.enabled=true proprietà del cluster.

Esempio:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

API REST

Imposta SoftwareConfig.properties in modo da includere la proprietà del cluster "dataproc:dataproc.cluster.caching.enabled": "true" come parte di una richiesta clusters.create.