SSD locales en Dataproc

Para complementar el disco de arranque, puedes adjuntar unidades de estado sólido locales (SSD locales) a los nodos principales, trabajadores principales y trabajadores secundarios en tu clúster. Cuando se proporcionan SSD locales al clúster, los datos HDFS y provisiorios, como los resultados aleatorios, usarán los SSD locales en lugar del disco persistente de arranque.

  • Las SSD locales pueden brindar tiempos de lectura y escritura más rápidos que disco persistente. (consulta Rendimiento de los SSD locales).
  • El tamaño de 375 GB de cada SSD local es fijo, pero puedes conectar varios SSD locales para aumentar el almacenamiento SSD (consulta Acerca de los SSD locales).
  • Cada SSD local se activa en /mnt/<id> en los nodos del clúster de Dataproc.
  • Los SSD locales usan ext4 como el sistema de archivos predeterminado.

Usa SSD locales

Comando de gcloud

Usa el comando gcloud dataproc clusters create con las marcas --num-master-local-ssds, --num-workers-local-ssds y --num-secondary-worker-local-ssds para conectar SSD locales a los nodos trabajadores principales, primarios y secundarios del clúster.

Los SSD locales se pueden conectar a las VMs de Dataproc mediante una SCSI (Interfaz de sistema informático pequeño) o NVME (Memoria exprés no volátil) (consulta la sección rendimiento de SSD locales). La interfaz SSD local predeterminada de la VM del clúster de Dataproc es la interfaz SCSI. Usa el gcloud dataproc clusters create con el --master-local-ssd-interface, --worker-local-ssd-interface y Marcas de --secondary-worker-local-ssd-interface a fin de especificar la interfaz del SSD local para la instancia principal, la primaria y la secundaria nodos trabajadores.

Ejemplo:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

API de REST

Establece el numLocalSsds en los campos masterConfig, workerConfig y secondaryWorkerConfig InstanceGroupConfig en una cluster.create una solicitud a la API para adjuntar SSD locales a la instancia principal, al trabajador principal y al nodos trabajadores secundarios.

Los SSD locales se pueden conectar a las VMs de Dataproc mediante una SCSI (Interfaz de sistema informático pequeño) o NVME (Memoria exprés no volátil) (consulta la sección rendimiento de SSD locales). La interfaz SSD local predeterminada de la VM del clúster de Dataproc es la interfaz SCSI. Establece el localSsdInterface en los campos masterConfig, workerConfig y secondaryWorkerConfig InstanceGroupConfig en una cluster.create Solicitud a la API para especificar la “SCSI” o "NVME" para conectar SSD locales a la instancia principal del clúster, trabajador principal y nodos trabajadores secundarios.

Console

Crea un clúster y conecta los SSD locales a los nodos trabajadores principales, primarios y secundarios desde el panel Configurar nodos de la página Crear un clúster de Dataproc en la consola de Google Cloud.