Dataproc 버전 관리

Dataproc은 이미지를 사용하여 유용한 Google Cloud Platform 커넥터와 Apache Spark 및 Apache Hadoop 구성요소를 Dataproc 클러스터에 배포할 수 있는 단일 패키지로 묶습니다. 이 이미지에는 Spark, Hadoop, Hive와 같은, 작업 실행에 필요한 핵심 및 선택사항 구성요소와 함께 클러스터의 기본 운영체제(Debian 또는 Ubuntu)가 포함되어 있습니다. 이러한 이미지는 주기적인 업그레이드를 통해 새로운 개선 사항과 기능이 추가됩니다. Dataproc 버전 관리를 사용하면 클러스터를 만들 때 소프트웨어 버전 집합을 선택할 수 있습니다.

버전 관리 방식

이미지가 생성되면 다음과 같은 형식의 이미지 버전 번호를 받습니다.

version_major.version_minor.version_sub_minor-os_distribution

다음과 같은 OS 배포판이 현재 유지되고 있습니다.

OS 배포 코드 OS 배포판
debian10 Debian 10
rocky8 Rocky Linux 8
ubuntu18 Ubuntu 18

이전에 지원된 OS 배포판에 대해서는 이전 이미지 버전을 참조하세요.

권장되는 방법은 프로덕션 환경용 또는 특정 구성요소 버전이 중요한 경우에 major.minor 이미지 버전을 지정하는 것입니다. 하위 부 및 OS 배포판은 최신 주간 출시 버전으로 자동 설정됩니다.

버전 선택

새로운 Dataproc 클러스터를 만들 때 기본적으로 Debian 이미지 버전이 사용됩니다. 클러스터를 만들 때 Debian, Rocky Linux, Ubuntu 이미지 버전을 선택할 수 있습니다(Dataproc 이미지 버전 목록 참조). Debian 기반 이미지를 지정할 때는 OS 배포 코드 서픽스를 생략할 수 있습니다. 예를 들어 2.0을 지정하여 2.0-debian10 이미지를 선택합니다. Rocky Linux 또는 Ubuntu 기반 이미지를 선택하려면 OS 서픽스를 반드시 사용해야 합니다. 예를 들어 2.0-ubuntu18을 지정합니다.

gcloud 명령어

gcloud dataproc clusters create 명령어를 사용할 때는 --image-version 인수를 사용하여 새 클러스터의 이미지 버전을 지정합니다.

Debian 이미지 예시:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0 \
    --region=region

Ubuntu 이미지 예시:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0-ubuntu18 \
    --region=region

권장사항은 최신 하위 부 버전이 사용되도록 하위 부 버전을 생략하는 것입니다. 하지만 필요한 경우 '2,0.20'과 같이 하위 부 버전을 지정할 수 있습니다.

Google Cloud CLI를 사용하여 현재 버전을 확인할 수 있습니다.

gcloud dataproc clusters describe cluster-name \
    --region=region

REST API

cluster.create API 요청의 일부로 SoftwareConfig imageVersion 필드를 지정할 수 있습니다.

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

콘솔

Dataproc 클러스터 만들기 페이지를 엽니다. 클러스터 설정 패널이 선택되었습니다. 버전 관리 섹션의 이미지 유형 및 버전 필드에는 클러스터를 만들 때 사용되는 이미지가 표시됩니다. 이미지 출시일도 표시됩니다. 처음에는 기본 이미지인 사용 가능한 최신 Debian 버전이 표시됩니다. 변경을 클릭하여 사용 가능한 이미지의 목록을 표시합니다. 클러스터에 사용할 표준 또는 커스텀 이미지를 선택할 수 있습니다.

새 버전 생성 시기

새로운 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.

  • 주요 릴리스:
    • Spark, Hadoop 및 기타 빅데이터 구성요소
    • Google Cloud 커넥터
  • Dataproc 기능의 주요 변경 또는 업데이트

새로운 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.

  • 다음에 대한 세부 릴리스 및 업데이트:
    • Spark, Hadoop 및 기타 빅데이터 구성요소
    • Google Cloud 커넥터
  • Dataproc 기능의 세부 변경 또는 업데이트

새로운 부 버전이 생성되면 해당 Debian 이미지가 주 버전의 기본값이 되며 주 버전의 최신 릴리스를 나타냅니다.

새로운 하위 부 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.

  • 이미지에 있는 구성요소의 패치 또는 수정사항

이미지 버전 및 Dataproc 지원

보조 이미지 버전은 최초 GA(일반 안정화 버전) 출시 후 24개월 동안 지원됩니다. 이 기간 동안 해당 이미지 버전을 사용하는 클러스터가 지원 대상입니다. 수정을 받으려면 지원되는 최신 하위 세부 이미지 버전을 사용하여 클러스터를 다시 만드세요. 지원 기간이 끝난 후에는 이미지 버전을 사용하는 클러스터는 더 이상 지원되지 않습니다.

이전 이미지 버전

이전에 지원된 OS 배포판

이전에 지원됐던 OS 배포판은 다음과 같습니다.

OS 배포 코드 OS 배포판 마지막 패치(지원 종료)
debian9 Debian 9 2020년 7월 10일
deb8 Debian 8 2018년 10월 26일

명시적 OS 배포판이 없는 이미지 버전

2018년 8월 16일 이전에는 이미지 버전이 Debian 8로 빌드되었으며 OS 배포 코드가 생략되었습니다. 이들은 다음 형식으로 지정됩니다.

version_major.version_minor.version_sub_minor

0.1 및 0.2

Dataproc 버전 1.0(일반 안정화 버전) 이전에 알파 또는 베타 버전으로 출시된 이미지 버전에는 Dataproc 지원 정책이 적용되지 않습니다.

버전 관리에 대한 중요 참고 사항