Dataproc 버전 관리

Dataproc은 이미지를 사용하여 유용한 Google Cloud Platform 커넥터와 Apache Spark 및 Apache Hadoop 구성요소를 Dataproc 클러스터에 배포할 수 있는 단일 패키지로 묶습니다. 이 이미지에는 Spark, Hadoop, Hive와 같은, 작업 실행에 필요한 핵심 및 선택사항 구성요소와 함께 클러스터의 기본 운영체제(Debian 또는 Ubuntu)가 포함되어 있습니다. 이러한 이미지는 주기적인 업그레이드를 통해 새로운 개선 사항과 기능이 추가됩니다. Dataproc 버전 관리를 사용하면 클러스터를 만들 때 소프트웨어 버전 집합을 선택할 수 있습니다.

버전 관리 방식

이미지가 생성되면 다음과 같은 형식의 이미지 버전 번호를 받습니다.

version_major.version_minor.version_sub_minor-os_distribution

다음과 같은 OS 배포판이 현재 유지되고 있습니다.

OS 배포 코드 OS 배포판
debian12 Debian 12
debian10 Debian 10
debian11 Debian 11
rocky8 Rocky Linux 8
rocky9 Rocky Linux 9
ubuntu18 Ubuntu 18.04 LTS
ubuntu20 Ubuntu 20.04 LTS
ubuntu22 Ubuntu 22.04 LTS

이전에 지원된 OS 배포판에 대해서는 이전 이미지 버전을 참조하세요.

권장되는 방법은 프로덕션 환경용으로, 또는 특정 구성요소 버전과의 호환성이 중요한 경우에 major.minor 이미지 버전을 지정하는 것입니다. 하위 마이너 버전 및 OS 배포판은 최신 주간 출시 버전으로 자동 설정됩니다.

버전 선택

새로운 Dataproc 클러스터를 만들 때 기본적으로 Debian 이미지 버전이 사용됩니다. 클러스터를 만들 때 Debian, Rocky Linux, Ubuntu 이미지 버전을 선택할 수 있습니다(Dataproc 이미지 버전 목록 참조). Debian 기반 이미지를 지정할 때는 OS 배포 코드 서픽스를 생략할 수 있습니다. 예를 들어 2.0을 지정하여 2.0-debian10 이미지를 선택합니다. Rocky Linux 또는 Ubuntu 기반 이미지를 선택하려면 OS 서픽스를 반드시 사용해야 합니다. 예를 들어 2.0-ubuntu18을 지정합니다.

gcloud 명령어

gcloud dataproc clusters create 명령어를 사용할 때는 --image-version 인수를 사용하여 새 클러스터의 이미지 버전을 지정합니다.

Debian 이미지 예시:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0 \
    --region=region

Ubuntu 이미지 예시:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0-ubuntu18 \
    --region=region

권장사항은 최신 하위 마이너 버전이 사용되도록 하위 마이너 버전을 생략하는 것입니다. 하지만 필요한 경우 '2.0.20'과 같이 하위 마이너 버전을 지정할 수 있습니다.

Google Cloud CLI를 사용하여 현재 버전을 확인할 수 있습니다.

gcloud dataproc clusters describe cluster-name \
    --region=region

REST API

cluster.create API 요청의 일부로 SoftwareConfig imageVersion 필드를 지정할 수 있습니다.

예시

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

콘솔

Dataproc 클러스터 만들기 페이지를 엽니다. 클러스터 설정 패널이 선택되었습니다. 버전 관리 섹션의 이미지 유형 및 버전 필드에는 클러스터를 만들 때 사용되는 이미지가 표시됩니다. 이미지 출시일도 표시됩니다. 처음에는 기본 이미지인 사용 가능한 최신 Debian 버전이 표시됩니다. 변경을 클릭하여 사용 가능한 이미지의 목록을 표시합니다. 클러스터에 사용할 표준 또는 커스텀 이미지를 선택할 수 있습니다.

새 버전 생성 시기

새로운 메이저 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.

  • 주요 릴리스:
    • Spark, Hadoop 및 기타 빅데이터 구성요소
    • Google Cloud 커넥터
  • Dataproc 기능의 주요 변경 또는 업데이트

새로운 미리보기 버전(-RC 서픽스 포함)은 새로운 메이저 버전이 출시되기 전에 출시됩니다.

  • 미리보기 이미지는 프로덕션 워크로드에 사용될 수 없습니다.
  • 미리보기 이미지 구성요소 버전은 미리보기 후 GA 이미지 버전에서 사용 가능한 최신 구성요소 버전으로 업그레이드될 수 있습니다.

새로운 마이너 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.

  • 다음에 대한 세부 릴리스 및 업데이트:
    • Spark, Hadoop 및 기타 빅데이터 구성요소
    • Google Cloud 커넥터
  • Dataproc 기능의 세부 변경 또는 업데이트

새로운 마이너 버전이 생성되면 해당 Debian 이미지가 메이저 버전의 기본값이 되며 메이저 버전의 최신 릴리스를 나타냅니다.

다음 중 하나 이상을 통합하기 위해 새 하위 마이너 버전이 주기적으로 생성됩니다.

  • 이미지에 있는 구성요소의 패치 또는 수정사항
  • 구성요소 하위 마이너 버전 업그레이드

이미지 버전 및 Dataproc 지원

보조 이미지 버전은 최초 GA(일반 안정화 버전) 출시 후 24개월 동안 지원됩니다. 이 기간 동안 해당 이미지 버전을 사용하는 클러스터가 지원 대상입니다. 수정을 받으려면 지원되는 최신 하위 세부 이미지 버전을 사용하여 클러스터를 다시 만드세요. 지원 기간이 끝난 후에는 이미지 버전을 사용하는 클러스터는 더 이상 지원되지 않습니다.

이전 이미지 버전

이전에 지원된 OS 배포판

이전에 지원됐던 OS 배포판은 다음과 같습니다.

OS 배포 코드 OS 배포판 마지막 패치(지원 종료)
debian9 Debian 9 2020년 7월 10일
deb8 Debian 8 2018년 10월 26일

명시적 OS 배포판이 없는 이미지 버전

2018년 8월 16일 이전에는 이미지 버전이 Debian 8로 빌드되었으며 OS 배포 코드가 생략되었습니다. 이들은 다음 형식으로 지정됩니다.

version_major.version_minor.version_sub_minor

0.1 및 0.2

Dataproc 버전 1.0(정식 버전) 이전에 알파 또는 베타 버전으로 출시된 이미지 버전에는 Dataproc 지원 정책이 적용되지 않습니다.

버전 관리에 대한 중요 참고 사항

  • 이미지 버전에는 다음구성 요소가 포함됩니다.
  • Dataproc 클러스터는 새 이미지 버전이 출시되어도 자동으로 업데이트되지 않습니다.
    • 권장사항:
    • 최신 하위 마이너 이미지 버전으로 클러스터를 실행하세요. 이미지 메타데이터에는 previous-subminor 라벨이 포함되며, 클러스터가 최신 하위 마이너 이미지 버전을 사용하지 않는 경우 이 라벨은 true로 설정됩니다.
      • 이미지 메타데이터를 보려면 다음 안내를 따르세요.
        1. 다음 gcloud compute images list --filter 명령어를 실행하여 Dataproc 이미지의 리소스 이름을 나열합니다.
          gcloud compute images list --project=PROJECT_NAME --filter="labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as 2.2.16-debian12)"
          
        2. 이미지 메타데이터를 보려면 다음 gcloud compute images describe를 실행합니다.
          gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME"
          
    • 특히 새로운 주 이미지 버전 출시 버전을 사용할 때 새 이미지 버전으로 생성된 클러스터에서 애플리케이션이 성공적으로 실행되는지 테스트하고 검증하세요.