Dataproc은 Apache Hadoop 및 Hadoop 분산 파일 시스템(HDFS)과 통합됩니다. 다음 기능 및 고려사항은 Dataproc 클러스터 및 작업의 컴퓨팅과 데이터 스토리지 옵션을 선택할 때 중요합니다.
HDFS와 Cloud Storage 함께 사용: Dataproc은 스토리지로 Hadoop 분산 파일 시스템(HDFS)을 사용합니다 또한 Dataproc은 Cloud Storage를 HDFS와 함께 사용할 수 있도록 지원하는 HDFS 호환 Cloud Storage 커넥터를 자동으로 설치합니다 데이터는 HDFS 또는 Cloud Storage에 대한 업로드 및 다운로드를 통해 클러스터에 들어가거나 나갈 수 있습니다.
VM 디스크:
기본적으로 로컬 SSD가 제공되지 않으면 HDFS 데이터 및 중간 Shuffle 데이터는 영구 디스크인 VM 부팅 디스크에 저장됩니다.
로컬 SSD를 사용하는 경우 HDFS 데이터 및 중간 Shuffle 데이터가 SSD에 저장됩니다.
데이터 스토리지로 HDFS 또는 Cloud Storage를 사용하더라도 영구 디스크(PD) 크기 및 유형은 성능과 VM 크기에 영향을 미칩니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-08-27(UTC)"],[[["\u003cp\u003eDataproc utilizes the Hadoop Distributed File System (HDFS) for storage and integrates with Cloud Storage.\u003c/p\u003e\n"],["\u003cp\u003eData can be moved into and out of Dataproc clusters via upload and download to HDFS or Cloud Storage.\u003c/p\u003e\n"],["\u003cp\u003eHDFS data and intermediate shuffle data are stored on VM boot disks by default, unless local SSDs are configured.\u003c/p\u003e\n"],["\u003cp\u003ePersistent disk size and type influence performance and VM size, regardless of whether HDFS or Cloud Storage is utilized.\u003c/p\u003e\n"],["\u003cp\u003eVM Boot disks are deleted when the cluster is deleted.\u003c/p\u003e\n"]]],[],null,["Dataproc integrates with Apache Hadoop and the Hadoop Distributed\nFile System (HDFS). The following features and considerations can be important\nwhen selecting compute and data storage options for Dataproc\nclusters and jobs:\n\n- HDFS with Cloud Storage: Dataproc uses the Hadoop Distributed File System (HDFS) for storage. Additionally, Dataproc automatically installs the HDFS-compatible [Cloud Storage connector](/dataproc/docs/concepts/connectors/cloud-storage), which enables the use of Cloud Storage in parallel with HDFS. Data can be moved in and out of a cluster through upload and download to HDFS or Cloud Storage.\n- VM disks:\n - By default, when no local SSDs are provided, HDFS data and intermediate shuffle data is stored on VM boot disks, which are [Persistent Disks](https://cloud.google.com/persistent-disk/).\n - If you use [local SSDs](/dataproc/docs/concepts/compute/dataproc-local-ssds), HDFS data and intermediate shuffle data is stored on the SSDs.\n - Persistent disk (PD) size and type affect performance and VM size, whether using HDFS or Cloud Storage for data storage.\n - **VM Boot disks are deleted when the cluster is deleted.**"]]