Dataproc 로컬 SSD

부팅 디스크를 보완하기 위해 클러스터에서 마스터, 기본 워커 노드, 보조 워커 노드에 로컬 SSD(로컬 솔리드 스테이트 드라이브)를 연결할 수 있습니다. 로컬 SSD가 클러스터에 제공되면 HDFS와 스크래치 데이터(예: Shuffle 출력)가 부팅 Persistent Disk 대신 로컬 SSD를 사용합니다.

  • 로컬 SSD는 영구 디스크보다 읽기 및 쓰기 속도가 빠릅니다(로컬 SSD 성능 참조).
  • 각 로컬 SSD의 크기는 375GB로 고정되어 있지만 여러 로컬 SSD를 연결하여 SSD 스토리지를 늘릴 수 있습니다(로컬 SSD 정보 참조).
  • 각 로컬 SSD는 Dataproc 클러스터 노드에서 /mnt/<id>에 마운트됩니다.
  • 로컬 SSD는 ext4를 기본 파일 시스템으로 사용합니다.

로컬 SSD 사용

gcloud 명령어

gcloud dataproc clusters create 명령어를 --num-master-local-ssds, --num-workers-local-ssds, --num-secondary-worker-local-ssds 플래그와 함께 사용하여 로컬 SSD를 클러스터의 마스터, 기본, 보조 워크 노드에 연결합니다.

로컬 SSD는 SCSI(소형 컴퓨터 시스템 인터페이스) 또는 NVME(비휘발성 메모리 익스프레스) 인터페이스를 사용하여 Dataproc VM에 연결할 수 있습니다(로컬 SSD 성능 참조). 기본 Dataproc 클러스터 VM 로컬 SSD 인터페이스는 SCSI 인터페이스입니다. gcloud dataproc clusters create 명령어를 --master-local-ssd-interface, --worker-local-ssd-interface, --secondary-worker-local-ssd-interface 플래그와 함께 사용하여 마스터, 기본, 보조 워커 노드에 대한 로컬 SSD 인터페이스를 지정합니다.

예:

gcloud dataproc clusters create cluster-name \
    --region=region \
    --num-master-local-ssds=1 \
    --num-worker-local-ssds=1 \
    --num-secondary-worker-local-ssds=1 \
    --master-local-ssd-interface=NVME \
    --worker-local-ssd-interface=NVME \
    --secondary-worker-local-ssd-interface=NVME \
    ... other args ...

REST API

masterConfig, workerConfignumLocalSsdscluster.create API 요청의 secondaryWorkerConfig InstanceGroupConfig를 설정하여 로컬 SSD를 클러스터의 마스터, 기본 워커, 보조 워커 노드에 연결합니다.

로컬 SSD는 SCSI(소형 컴퓨터 시스템 인터페이스) 또는 NVME(비휘발성 메모리 익스프레스) 인터페이스를 사용하여 Dataproc VM에 연결할 수 있습니다(로컬 SSD 성능 참조). 기본 Dataproc 클러스터 VM 로컬 SSD 인터페이스는 SCSI 인터페이스입니다. cluster.create API 요청의 masterConfig, workerConfigsecondaryWorkerConfig InstanceGroupConfig에서 localSsdInterface 필드를 설정하여 "SCSI" 또는 "NVME" 인터페이스를 지정하여 로컬 SSD를 클러스터의 마스터, 기본 작업자 및 보조 작업자 노드에 연결합니다.

콘솔

Google Cloud Console의 Dataproc 클러스터 만들기 페이지에 있는 노드 구성 패널에서 클러스터를 만들고 로컬 SSD를 마스터, 기본, 보조 워커 노드에 연결합니다.