Dataproc은 이미지를 사용하여 유용한 Google Cloud Platform 커넥터와 Apache Spark 및 Apache Hadoop 구성요소를 Dataproc 클러스터에 배포할 수 있는 단일 패키지로 묶습니다. 이 이미지에는 Spark, Hadoop, Hive와 같은, 작업 실행에 필요한 핵심 및 선택사항 구성요소와 함께 클러스터의 기본 운영체제(Debian 또는 Ubuntu)가 포함되어 있습니다. 이러한 이미지는 주기적인 업그레이드를 통해 새로운 개선 사항과 기능이 추가됩니다. Dataproc 버전 관리를 사용하면 클러스터를 만들 때 소프트웨어 버전 집합을 선택할 수 있습니다.
버전 관리 방식
이미지가 생성되면 다음과 같은 형식의 이미지 버전 번호를 받습니다.
version_major.version_minor.version_sub_minor-os_distribution
다음과 같은 OS 배포판이 현재 유지되고 있습니다.
OS 배포 코드 | OS 배포판 |
---|---|
debian12 | Debian 12 |
debian10 | Debian 10 |
debian11 | Debian 11 |
rocky8 | Rocky Linux 8 |
rocky9 | Rocky Linux 9 |
ubuntu18 | Ubuntu 18.04 LTS |
ubuntu20 | Ubuntu 20.04 LTS |
ubuntu22 | Ubuntu 22.04 LTS |
이전에 지원된 OS 배포판에 대해서는 이전 이미지 버전을 참조하세요.
권장되는 방법은 프로덕션 환경용으로, 또는 특정 구성요소 버전과의 호환성이 중요한 경우에 major.minor
이미지 버전을 지정하는 것입니다. 하위 마이너 버전 및 OS 배포판은 최신 주간 출시 버전으로 자동 설정됩니다.
버전 선택
새로운 Dataproc 클러스터를 만들 때 기본적으로 Debian 이미지 버전이 사용됩니다. 클러스터를 만들 때 Debian, Rocky Linux, Ubuntu 이미지 버전을 선택할 수 있습니다(Dataproc 이미지 버전 목록 참조).
Debian 기반 이미지를 지정할 때는 OS 배포 코드 서픽스를 생략할 수 있습니다. 예를 들어 2.0
을 지정하여 2.0-debian10
이미지를 선택합니다.
Rocky Linux 또는 Ubuntu 기반 이미지를 선택하려면 OS 서픽스를 반드시 사용해야 합니다. 예를 들어 2.0-ubuntu18
을 지정합니다.
gcloud 명령어
gcloud dataproc clusters create
명령어를 사용할 때는 --image-version
인수를 사용하여 새 클러스터의 이미지 버전을 지정합니다.
Debian 이미지 예시:
gcloud dataproc clusters create cluster-name \ --image-version=2.0 \ --region=region
Ubuntu 이미지 예시:
gcloud dataproc clusters create cluster-name \ --image-version=2.0-ubuntu18 \ --region=region
권장사항은 최신 하위 마이너 버전이 사용되도록 하위 마이너 버전을 생략하는 것입니다. 하지만 필요한 경우 '2.0.20'과 같이 하위 마이너 버전을 지정할 수 있습니다.
Google Cloud CLI를 사용하여 현재 버전을 확인할 수 있습니다.
gcloud dataproc clusters describe cluster-name \ --region=region
REST API
cluster.create API 요청의 일부로 SoftwareConfig
imageVersion 필드를 지정할 수 있습니다.
예시
POST /v1/projects/project-id/regions/us-central1/clusters/ { "projectId": "project-id", "clusterName": "example-cluster", "config": { "configBucket": "", "gceClusterConfig": { "subnetworkUri": "default", "zoneUri": "us-central1-b" }, "masterConfig": { ... } }, "workerConfig": { ... } }, "softwareConfig": { "imageVersion": "2.0" } } }
콘솔
Dataproc 클러스터 만들기 페이지를 엽니다. 클러스터 설정 패널이 선택되었습니다. 버전 관리 섹션의 이미지 유형 및 버전 필드에는 클러스터를 만들 때 사용되는 이미지가 표시됩니다. 이미지 출시일도 표시됩니다. 처음에는 기본 이미지인 사용 가능한 최신 Debian 버전이 표시됩니다. 변경을 클릭하여 사용 가능한 이미지의 목록을 표시합니다. 클러스터에 사용할 표준 또는 커스텀 이미지를 선택할 수 있습니다.
새 버전 생성 시기
새로운 메이저 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.
- 주요 릴리스:
- Spark, Hadoop 및 기타 빅데이터 구성요소
- Google Cloud 커넥터
- Dataproc 기능의 주요 변경 또는 업데이트
새로운 미리보기 버전(-RC
서픽스 포함)은 새로운 메이저 버전이 출시되기 전에 출시됩니다.
- 미리보기 이미지는 프로덕션 워크로드에 사용될 수 없습니다.
- 미리보기 이미지 구성요소 버전은 미리보기 후 GA 이미지 버전에서 사용 가능한 최신 구성요소 버전으로 업그레이드될 수 있습니다.
새로운 마이너 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.
- 다음에 대한 세부 릴리스 및 업데이트:
- Spark, Hadoop 및 기타 빅데이터 구성요소
- Google Cloud 커넥터
- Dataproc 기능의 세부 변경 또는 업데이트
새로운 마이너 버전이 생성되면 해당 Debian 이미지가 메이저 버전의 기본값이 되며 메이저 버전의 최신 릴리스를 나타냅니다.
다음 중 하나 이상을 통합하기 위해 새 하위 마이너 버전이 주기적으로 생성됩니다.
- 이미지에 있는 구성요소의 패치 또는 수정사항
- 구성요소 하위 마이너 버전 업그레이드
이미지 버전 및 Dataproc 지원
보조 이미지 버전은 최초 GA(일반 안정화 버전) 출시 후 24개월 동안 지원됩니다. 이 기간 동안 해당 이미지 버전을 사용하는 클러스터가 지원 대상입니다. 수정을 받으려면 지원되는 최신 하위 세부 이미지 버전을 사용하여 클러스터를 다시 만드세요. 지원 기간이 끝난 후에는 이미지 버전을 사용하는 클러스터는 더 이상 지원되지 않습니다.
이전 이미지 버전
이전에 지원된 OS 배포판
이전에 지원됐던 OS 배포판은 다음과 같습니다.
OS 배포 코드 | OS 배포판 | 마지막 패치(지원 종료) |
---|---|---|
debian9 | Debian 9 | 2020년 7월 10일 |
deb8 | Debian 8 | 2018년 10월 26일 |
명시적 OS 배포판이 없는 이미지 버전
2018년 8월 16일 이전에는 이미지 버전이 Debian 8로 빌드되었으며 OS 배포 코드가 생략되었습니다. 이들은 다음 형식으로 지정됩니다.
version_major.version_minor.version_sub_minor
0.1 및 0.2
Dataproc 버전 1.0
(정식 버전) 이전에 알파 또는 베타 버전으로 출시된 이미지 버전에는 Dataproc 지원 정책이 적용되지 않습니다.
버전 관리에 대한 중요 참고 사항
- 이미지 버전에는 다음구성 요소가 포함됩니다.
- Dataproc 클러스터는 새 이미지 버전이 출시되어도 자동으로 업데이트되지 않습니다.
- 권장사항:
- 최신 하위 마이너 이미지 버전으로 클러스터를 실행하세요.
이미지 메타데이터에는
previous-subminor
라벨이 포함되며, 클러스터가 최신 하위 마이너 이미지 버전을 사용하지 않는 경우 이 라벨은true
로 설정됩니다.- 이미지 메타데이터를 보려면 다음 안내를 따르세요.
- 다음
gcloud compute images list --filter
명령어를 실행하여 Dataproc 이미지의 리소스 이름을 나열합니다.gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as
2.2.16-debian12
)" - 이미지 메타데이터를 보려면 다음
gcloud compute images describe
를 실행합니다.gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
- 다음
- 이미지 메타데이터를 보려면 다음 안내를 따르세요.
- 특히 새로운 주 이미지 버전 출시 버전을 사용할 때 새 이미지 버전으로 생성된 클러스터에서 애플리케이션이 성공적으로 실행되는지 테스트하고 검증하세요.