Dataproc 클러스터에는 다음과 같은 유형의 구성요소가 있습니다.
설치된 구성요소: 이미지에 설치되고 클러스터가 생성될 때 활성화되는 구성요소입니다.
선택적 구성요소: 클러스터를 만들 때 클러스터에 설치하고 사용할 구성요소를 선택합니다. Dataproc은 클러스터 이미지 버전에 따라 다음과 같이 선택적 구성요소를 설치하고 활성화합니다.
2.2
이하 이미지 버전: 선택적 구성요소가 자동으로 설치됩니다. 선택한 선택적 구성요소는 활성화되고 선택하지 않은 선택적 구성요소는 클러스터 생성 시 제거됩니다.2.3
이상 이미지 버전: Jupyter, Iceberg, Delta Lake 선택적 구성요소를 제외한 모든 선택적 구성요소는 클러스터 생성 중에 설치됩니다. Jupyter, Iceberg, Delta Lake 선택적 구성요소는2.3
이상 이미지 버전에서 사전 설치됩니다. 사전 설치된 선택적 구성요소는 클러스터를 만들 때 사용 설정되지 않은 경우2.3
이상 이미지 버전 클러스터에서 삭제됩니다. 자세한 내용은 Dataproc 2.3.x 출시 버전을 참조하세요.
초기화 작업 구성요소: 클러스터를 만들 때 지정한 초기화 작업의 일부로 클러스터에 설치된 구성요소입니다.
선택적 구성 요소는 클러스터에서 초기화 작업이 실행되기 전에 클러스터에 설치됩니다.
Dataproc 이미지 버전 페이지에는 최신 Dataproc 이미지 출시에 제공되는 구성요소와 구성요소 유형이 나열되어 있습니다.
선택적 구성요소는 구성요소를 설치하는 데 사용되는 초기화 작업에 비해 다음과 같은 이점이 있습니다.
- 선택적 구성요소는 특정 Dataproc 버전과 호환되는 것으로 테스트됩니다.
- 선택적 구성요소는 클러스터 생성 매개변수로 사용 설정됩니다. 초기화 작업에는 스크립트가 필요합니다.
사용 가능한 선택적 구성요소
선택적 구성요소 | Google Cloud CLI 명령어 및 API 요청의 구성 요소 이름 |
이미지 버전 | 출시 단계 |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 이상 | GA |
Docker | DOCKER | 1.5 이상 | GA |
Flink | FLINK | 1.5 이상 | GA |
HBase | HBASE | 1.5 이상 (2.1 이상에서는 사용할 수 없음) |
지원 중단됨 |
Hive WebHCat | HIVE_WEBHCAT | 1.3 이상 | GA |
Hudi | HUDI | 1.5 이상 | GA |
Iceberg | ICEBERG | 2.2 이상 | GA |
Jupyter 노트북 | JUPYTER | 1.3 이상 | GA |
Pig | PIG | 1.5* 이상 | GA |
Presto | PRESTO | 1.3 이상 (2.1 이상에서는 사용할 수 없음) |
GA |
Ranger | RANGER | 1.3 이상 | GA |
Solr | SOLR | 1.3 이상 | GA |
Trino | TRINO | 2.1 이상 | GA |
Zeppelin 노트북 | ZEPPELIN | 1.3 이상 | GA |
Zookeeper | ZOOKEEPER | 1.0 이상 | GA |
참고:
- Apache Pig는 이미지 버전 2.3 이상의 선택적 구성요소입니다.
2.2
이하 이미지 버전에는 사전 설치되어 있었습니다.
선택적 구성요소 추가
콘솔
- Google Cloud 콘솔에서 Dataproc 클러스터 만들기 페이지로 이동합니다.
클러스터 설정 패널이 선택되었습니다.
- 구성요소 섹션의 선택적 구성요소에서 클러스터에 설치할 구성요소를 하나 이상 선택합니다.
Google Cloud CLI
Dataproc 클러스터를 만들고 클러스터에 하나 이상의 선택적 구성요소를 설치하려면 gcloud beta dataproc clusters create cluster-name
명령어를 --optional-components
플래그와 함께 사용하세요.
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
선택적 구성요소는 SoftwareConfig.Component를 clusters.create 요청의 일부로 사용하여 Dataproc API를 통해 지정할 수 있습니다.