Dataproc Hadoop 데이터 스토리지

Dataproc은 Apache Hadoop 및 Hadoop 분산 파일 시스템(HDFS)과 통합됩니다. 다음 기능 및 고려사항은 Dataproc 클러스터 및 작업의 컴퓨팅과 데이터 스토리지 옵션을 선택할 때 중요합니다.

  • HDFS와 Cloud Storage 함께 사용: Dataproc은 스토리지로 Hadoop 분산 파일 시스템(HDFS)을 사용합니다 또한 Dataproc은 Cloud Storage를 HDFS와 함께 사용할 수 있도록 지원하는 HDFS 호환 Cloud Storage 커넥터를 자동으로 설치합니다 데이터는 HDFS 또는 Cloud Storage에 대한 업로드/다운로드를 통해 클러스터를 오갈 수 있습니다.
  • VM 디스크:
    • 기본적으로 로컬 SSD가 제공되지 않으면 HDFS 데이터 및 중간 Shuffle 데이터는 영구 디스크인 VM 부팅 디스크에 저장됩니다.
    • 로컬 SSD를 사용하는 경우 HDFS 데이터 및 중간 Shuffle 데이터가 SSD에 저장됩니다.
    • 데이터 스토리지로 HDFS 또는 Cloud Storage를 사용하더라도 PD 크기 및 유형은 성능 및 VM 크기에 영향을 미칩니다.
    • 클러스터가 삭제되면 VM 부팅 디스크도 삭제됩니다.