SSD locali Dataproc

Per integrare il disco di avvio, puoi collegare unità a stato solido (SSD) locali ai nodi master, worker principali e worker secondari del cluster. Quando al cluster vengono fornite unità SSD locali, sia dati HDFS sia dati temporanei, ad esempio lo shuffling degli output, usa gli SSD locali anziché un disco permanente standard.

  • Gli SSD locali possono fornire tempi di lettura e scrittura più rapidi rispetto a un disco permanente (vedi Prestazioni degli SSD locali).
  • La dimensione di 375 GB di ogni SSD locale è fissa, ma è possibile collegare più SSD locali aumentare lo spazio di archiviazione SSD (vedi Informazioni sulle unità SSD locali).
  • Ogni SSD locale è montato su /mnt/<id> nei nodi del cluster Dataproc.
  • Le unità SSD locali utilizzano ext4 come file system predefinito.

Utilizzo di SSD locali

Comando g-cloud

Utilizza il comando gcloud dataproc clusters create con i flag --num-master-local-ssds, --num-workers-local-ssds e --num-secondary-worker-local-ssds per collegare le unità SSD locali ai nodi master, principali e secondari del cluster.

Gli SSD locali possono essere collegati alle VM Dataproc utilizzando un file SCSI (Small Computer System Interface) o NVME (Non-Volatile Memory Express) (consultare prestazioni SSD locali). L'interfaccia SSD locale della VM del cluster Dataproc predefinita è l'interfaccia SCSI. Utilizza il comando gcloud dataproc clusters create con i flag --master-local-ssd-interface, --worker-local-ssd-interface e --secondary-worker-local-ssd-interface per specificare l'interfaccia dell'unità SSD locale per i nodi di lavoro master, principali e secondari.

Esempio:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

API REST

Imposta il parametro numLocalSsds nel campo masterConfig, workerConfig e secondaryWorkerConfig InstanceGroupConfig in un cluster.create Richiesta API per il collegamento di SSD locali al master, al worker principale e nodi worker secondari.

Le unità SSD locali possono essere collegate alle VM Dataproc utilizzando un'interfaccia SCSI (Small Computer System Interface) o NVME (Non-Volatile Memory Express) (consulta Prestazioni delle unità SSD locali). L'interfaccia SSD locale della VM del cluster Dataproc predefinita è l'interfaccia SCSI. Imposta il campo localSsdInterface in masterConfig, workerConfig e secondaryWorkerConfig InstanceGroupConfig in una richiesta API cluster.create per specificare l'interfaccia "SCSI" o "NVME" per collegare le unità SSD locali ai nodi master, principali e secondari del cluster.

Console

Crea un cluster e collega gli SSD locali al master, i nodi worker primari e secondari nel riquadro Configura nodi del Dataproc Pagina Crea un cluster della console Google Cloud.