Quando attivi la memorizzazione nella cache di un cluster Dataproc, quest'ultimo viene memorizzato Dati di Cloud Storage a cui i job Spark a cui accedono spesso.
Vantaggi
- Prestazioni superiori: la memorizzazione nella cache può migliorare le prestazioni dei job diminuendo la quantità di tempo impiegato per il recupero dei dati dallo spazio di archiviazione.
- Costi di archiviazione ridotti: poiché i dati ad accesso frequente vengono memorizzati nella cache sul disco locale, Vengono effettuate meno chiamate API allo spazio di archiviazione per recuperare i dati.
Limitazioni e requisiti
- La memorizzazione nella cache si applica solo ai job Dataproc Spark.
- Vengono memorizzati nella cache solo i dati di Cloud Storage.
- La memorizzazione nella cache si applica solo ai cluster che soddisfano i seguenti requisiti:
- Il cluster ha un master e
n
worker I cluster ad alta disponibilità (HA) e nodo singolo non sono supportati. - Questa funzionalità è disponibile in Dataproc su Compute Engine
versioni immagine
2.0.72+ or 2.1.20+
. - Ogni nodo del cluster deve avere SSD locali in allegato NVME (Non-Volatile Memory Express) a riga di comando (i dischi permanenti (DP) non sono supportati). I dati vengono memorizzati nella cache su NVME SSD locali.
- Il cluster utilizza account di servizio predefinito per VM per l'autenticazione. Account di servizio per VM personalizzate non sono supportati.
- Il cluster ha un master e
Abilita memorizzazione nella cache del cluster
Puoi abilitare la memorizzazione nella cache del cluster quando crei un cluster Dataproc utilizzando la console Google Cloud, Google Cloud CLI o l'API Dataproc.
Console Google Cloud
- Apri Dataproc Crea un cluster su Compute Engine nella console Google Cloud.
- Il riquadro Configura cluster è selezionato. Nella Attiva miglioramenti delle prestazioni, seleziona Attiva la memorizzazione nella cache di Google Cloud Storage.
- Dopo aver confermato e specificato i dettagli del cluster nei riquadri di creazione del cluster, fai clic su Crea.
Interfaccia a riga di comando gcloud
Esegui gcloud dataproc clusters create
localmente in una finestra del terminale o
Cloud Shell
utilizzando dataproc:dataproc.cluster.caching.enabled=true
proprietà cluster.
Esempio:
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties dataproc:dataproc.cluster.caching.enabled=true \ --num-master-local-ssds=2 \ --master-local-ssd-interface=NVME \ --num-worker-local-ssds=2 \ --worker-local-ssd-interface=NVME \ other args ...
API REST
Imposta SoftwareConfig.properties
per includere i "dataproc:dataproc.cluster.caching.enabled": "true"
proprietà cluster
nell'ambito di un
clusters.create
richiesta.