Dataproc 안정성 가이드

Last reviewed 2023-07-20 UTC

Dataproc는 Apache Hadoop 및 Spark 작업을 실행하기 위한 확장 가능한 완전 관리형 서비스입니다. Dataproc를 사용하면 필요에 따라 가상 머신을 맞춤설정하고 확장 및 축소할 수 있습니다. Dataproc는 Cloud Storage, BigQuery, Bigtable, 기타 Google Cloud 서비스와 밀접하게 통합됩니다.

권장사항

  • Dataproc 고가용성 모드 - 인스턴스 이름, Apache ZooKeeper, Hadoop 분산 파일 시스템(HDFS), Yet Another Resource Negotiator(YARN) 등의 측면에서 Hadoop 고가용성(HA) 모드를 기본 비HA 모드와 비교합니다. 또한 고가용성 클러스터를 만드는 방법.
  • 클러스터 자동 확장 - Dataproc 자동 확장 사용 시기, 자동 확장 정책 생성 방법, 멀티 클러스터 정책 사용, 자동 확장 구성을 위한 안정성 모범 사례, 측정항목 및 로그
  • Dataproc 향상된 유연성 모드(EFM) - 작업 진행 지연을 최소화하기 위한 향상된 유연성 모드, 파티션 나누기 및 동시 로드와 같은 고급 구성, EFM 클러스터의 YARN 단계적 해제 사용 예시
  • 단계적 해제 - 클러스터에서 작업자를 삭제할 때의 영향을 최소화하기 위한 단계적 해제 사용, 보조 작업자와의 이 기능 사용 방법, 단계적 해제에 대한 명령어 예시
  • 다시 시작 가능한 작업 - 선택적 설정을 사용하면 실패 시 작업이 다시 시작하도록 설정하여 메모리 부족 문제 및 예상치 못한 Compute Engine 가상 머신 재부팅을 비롯한 일반적인 유형의 작업 실패 문제를 완화할 수 있습니다.