Dataproc은 Apache Hadoop 및 Hadoop 분산 파일 시스템(HDFS)과 통합됩니다. 다음 기능 및 고려사항은 Dataproc 클러스터 및 작업의 컴퓨팅과 데이터 스토리지 옵션을 선택할 때 중요합니다.
HDFS와 Cloud Storage 함께 사용: Dataproc은 스토리지로 Hadoop 분산 파일 시스템(HDFS)을 사용합니다 또한 Dataproc은 Cloud Storage를 HDFS와 함께 사용할 수 있도록 지원하는 HDFS 호환 Cloud Storage 커넥터를 자동으로 설치합니다 데이터는 HDFS 또는 Cloud Storage에 대한 업로드 및 다운로드를 통해 클러스터에 들어가거나 나갈 수 있습니다.
VM 디스크:
기본적으로 로컬 SSD가 제공되지 않으면 HDFS 데이터 및 중간 Shuffle 데이터는 영구 디스크인 VM 부팅 디스크에 저장됩니다.
로컬 SSD를 사용하는 경우 HDFS 데이터 및 중간 Shuffle 데이터가 SSD에 저장됩니다.
데이터 스토리지로 HDFS 또는 Cloud Storage를 사용하더라도 영구 디스크(PD) 크기 및 유형은 성능과 VM 크기에 영향을 미칩니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2024-01-31(UTC)"],[],[]]