Se usó la API de Cloud Translation para traducir esta página.

SSD locales de Dataproc

Para complementar el disco de arranque, puedes adjuntar unidades de estado sólido locales (SSD locales) a los nodos principales, trabajadores principales y trabajadores secundarios en tu clúster. Cuando se proporcionan SSD locales al clúster, los datos HDFS y provisorios, como los resultados aleatorios, usan los SSD locales en lugar del disco persistente de arranque.

Con los SSD locales, se pueden obtener tiempos de lectura y escritura más rápidos que con disco persistente (consulta Rendimiento de SSD locales).
El tamaño de 375 GB de cada SSD local es fijo, pero puedes conectar varios SSD locales para aumentar el almacenamiento SSD (consulta Acerca de los SSD locales).
Cada SSD local se activa en /mnt/<id> en los nodos del clúster de Dataproc.
Las SSD locales usan ext4 como sistema de archivos predeterminado.

Usa SSD locales

Comando de gcloud

Usa el comando gcloud dataproc clusters create con las marcas --num-master-local-ssds, --num-workers-local-ssds y --num-secondary-worker-local-ssds para conectar SSD locales a los nodos trabajadores principales, primarios y secundarios del clúster.

Las SSD locales se pueden conectar a las VMs de Dataproc con una interfaz SCSI (Small Computer System Interface) o NVMe (Non-Volatile Memory Express) (consulta Rendimiento de SSD locales). La interfaz SCSI es la interfaz predeterminada de SSD local de la VM del clúster de Dataproc. Usa el comando gcloud dataproc clusters create con las marcas --master-local-ssd-interface, --worker-local-ssd-interface y --secondary-worker-local-ssd-interface para especificar la interfaz de SSD local para los nodos trabajadores principales, primarios y secundarios.

Ejemplo:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

API de REST

Establece el campo numLocalSsds en InstanceGroupConfig de masterConfig, workerConfig y secondaryWorkerConfig en una solicitud cluster.create a la API para conectar SSD locales a los nodos trabajadores principales, primarios y secundarios del clúster.

Las SSD locales se pueden conectar a las VMs de Dataproc con una interfaz SCSI (Small Computer System Interface) o NVMe (Non-Volatile Memory Express) (consulta Rendimiento de SSD locales). La interfaz SCSI es la interfaz predeterminada de SSD local de la VM del clúster de Dataproc. Establece el campo localSsdInterface en InstanceGroupConfig de masterConfig, workerConfig y secondaryWorkerConfig en una solicitud cluster.create a la API para especificar la interfaz "SCSI" o "NVME" para conectar SSD locales a los nodos principales, trabajadores primarios y trabajadores secundarios del clúster.

Console

Crea un clúster y adjunta los SSD locales a los nodos trabajadores principales, primarios y secundarios desde el panel Configurar nodos de la página Crear un clúster de Dataproc de la consola de Google Cloud .