Quando abiliti la memorizzazione nella cache del cluster Dataproc, il cluster memorizza nella cache i dati di Cloud Storage a cui si accede di frequente dai job Spark.
Vantaggi
- Prestazioni migliorate: la memorizzazione nella cache può migliorare le prestazioni dei job riducendo la quantità di tempo dedicato al recupero dei dati dall'archiviazione.
- Costi di archiviazione ridotti: poiché i dati ad accesso frequente vengono memorizzati nella cache sul disco locale, vengono effettuate meno chiamate API allo spazio di archiviazione per recuperare i dati.
Limitazioni e requisiti
- La memorizzazione nella cache si applica solo ai job Dataproc Spark.
- Solo i dati di Cloud Storage vengono memorizzati nella cache.
- La memorizzazione nella cache si applica solo ai cluster che soddisfano i seguenti requisiti:
- Il cluster ha un master e
n
worker (i cluster ad alta disponibilità (HA) e a nodo singolo non sono supportati). - Questa funzionalità è disponibile nelle
versioni immagine
2.0.72+ or 2.1.20+
di Dataproc su Compute Engine. - A ogni nodo del cluster deve essere collegato l'SSD locali all'interfaccia NVME (Non-Volatile Memory Express) (i dischi permanenti (PD) non sono supportati). I dati vengono memorizzati nella cache solo su SSD locali NVME.
- Il cluster utilizza l'account di servizio VM predefinito per l'autenticazione. Gli account di servizio delle VM personalizzate non sono supportati.
- Il cluster ha un master e
Abilita memorizzazione nella cache del cluster
Puoi abilitare la memorizzazione nella cache del cluster quando crei un cluster Dataproc utilizzando Google Cloud CLI o l'API Dataproc.
Console
Al momento, l'abilitazione della memorizzazione nella cache del cluster dalla console Google Cloud non è supportata.
Interfaccia a riga di comando gcloud
Esegui il comando gcloud dataproc clusters create in locale in una finestra del terminale o in Cloud Shell utilizzando la proprietà cluster dataproc:dataproc.cluster.caching=true
.
Esempio:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API REST
Imposta SoftwareConfig.properties
in modo da includere la
proprietà cluster
"dataproc:dataproc.cluster.caching": "true"
in una richiesta
clusters.create.