Dataproc 구성요소

클러스터를 생성하면 표준 Apache Hadoop 에코 시스템 구성요소가 자동으로 클러스터에 설치됩니다(Dataproc 버전 목록 참조). 클러스터를 만들 때 클러스터에 '선택적 구성요소'라는 추가 구성요소를 설치할 수 있습니다. 선택적 구성요소를 클러스터에 추가하는 것은 초기화 작업을 통해 구성요소를 추가하는 것과 비슷하지만 다음과 같은 이점이 있습니다.

  • 클러스터 시작 시간 단축
  • 특정 Dataproc 버전과의 호환성 입증
  • 초기화 작업 스크립트 대신 클러스터 매개변수 사용
  • 선택적 구성요소는 다른 Dataproc 구성요소와 통합됩니다. 예를 들어 Anaconda와 Zeppelin을 클러스터에 설치하면 Zeppelin은 Anaconda의 Python 인터프리터와 라이브러리를 사용합니다.

사용 가능한 선택적 구성요소

선택적 구성요소 gcloud 명령어 및 API 요청의
COMPONENT_NAME
이미지 버전 출시 단계
Anaconda ANACONDA 1.3 이상
(2.0 이상에서는 사용할 수 없음)
GA
Docker DOCKER 1.5 이상 GA
Flink FLINK 1.5 이상 GA
HBase HBASE 1.5 이상
(2.1 이상에서는 사용할 수 없음)
베타
Hive WebHCat HIVE_WEBHCAT 1.3 이상 GA
Hudi Hudi 1.5 이상 GA
Jupyter 노트북 JUPYTER 1.3 이상 GA
Presto PRESTO 1.3 이상
(2.1 이상에서는 사용할 수 없음)
GA
Ranger RANGER 1.3 이상 GA
Solr SOLR 1.3 이상 GA
Trino TRINO 2.1 이상 GA
Zeppelin 노트북 ZEPPELIN 1.3 이상 GA
Zookeeper ZOOKEEPER 1.0 이상 GA

선택적 구성요소 추가

gcloud 명령어

Dataproc 클러스터를 만들고 클러스터에 하나 이상의 선택적 구성요소를 설치하려면 gcloud beta dataproc clusters create cluster-name 명령어를 --optional-components 플래그와 함께 사용하세요.

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

선택적 구성요소는 SoftwareConfig.Componentclusters.create 요청의 일부로 사용하여 Dataproc API를 통해 지정될 수 있습니다.

콘솔

Google Cloud 콘솔에서 Dataproc 클러스터 만들기 페이지를 엽니다. 클러스터 설정 패널이 선택되었습니다. 구성요소 섹션의 선택적 구성요소 아래에서 클러스터에 설치할 하나 이상의 구성요소를 선택합니다.