SSD locales en Dataproc

Para complementar el disco de arranque, puedes adjuntar unidades de estado sólido locales (SSD locales) a los nodos principales, trabajadores principales y trabajadores secundarios en tu clúster. Cuando se proporcionan SSD locales al clúster, tanto los datos HDFS como los reutilizables, como los resultados de Shuffle, debes usar los SSD locales en lugar del disco de arranque persistente.

  • Los SSD locales pueden proporcionar tiempos de lectura y escritura más rápidos que disco persistente (consulta Rendimiento de SSD locales).
  • El tamaño de 375 GB de cada SSD local es fijo, pero puedes conectar varios SSD locales para aumentar el almacenamiento SSD (consulta Acerca de los SSD locales).
  • Cada SSD local se activa en /mnt/<id> en los nodos del clúster de Dataproc.
  • Los SSD locales usan ext4 como el sistema de archivos predeterminado.

Usa SSD locales

Comando de gcloud

Usa el comando gcloud dataproc clusters create con las marcas --num-master-local-ssds, --num-workers-local-ssds y --num-secondary-worker-local-ssds para adjuntar SSD locales a los nodos trabajadores principales, primarios y secundarios del clúster.

Los SSD locales se pueden conectar a las VM de Dataproc mediante una interfaz SCSI (interfaz de sistema informático pequeña) o NVME (memoria exprés no volátil) (consulta Rendimiento de SSD locales). La interfaz del SSD local de la VM del clúster de Dataproc predeterminada es la interfaz SCSI. Usa el comando gcloud dataproc clusters create con las marcas --master-local-ssd-interface, --worker-local-ssd-interface y --secondary-worker-local-ssd-interface a fin de especificar la interfaz del SSD local para los nodos trabajadores principales, primarios y secundarios.

Ejemplo:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

API de REST

Configura el campo numLocalSsds en masterConfig, workerConfig y secondaryWorkerConfig InstanceGroupConfig en una solicitud a la API cluster.create para adjuntar SSD locales a los nodos trabajadores principales, trabajadores principales y trabajadores secundarios del clúster.

Los SSD locales se pueden conectar a las VM de Dataproc mediante una interfaz SCSI (interfaz de sistema informático pequeña) o NVME (memoria exprés no volátil) (consulta Rendimiento de SSD locales). La interfaz del SSD local de la VM del clúster de Dataproc predeterminada es la interfaz SCSI. Configura el campo localSsdInterface en masterConfig, workerConfig y secondaryWorkerConfig InstanceGroupConfig en una solicitud a la API cluster.create para especificar la interfaz “SCSI” o “NVME” a fin de conectar SSD locales a la instancia principal, el trabajador principal y los nodos trabajadores secundarios del clúster.

Consola

Crea un clúster y adjunta los SSD locales a los nodos trabajadores principales, primarios y secundarios desde el panel de configuración de nodos de la página Crea un clúster de Dataproc de la consola de Google Cloud.