Dataproc 버전 관리

Dataproc은 이미지를 사용하여 유용한 Google Cloud Platform 커넥터와 Apache Spark 및 Apache Hadoop 구성요소를 Dataproc 클러스터에 배포할 수 있는 단일 패키지로 묶습니다. 이 이미지에는 Spark, Hadoop, Hive와 같은, 작업 실행에 필요한 핵심 및 선택사항 구성요소와 함께 클러스터의 기본 운영체제(Debian 또는 Ubuntu)가 포함되어 있습니다. 이러한 이미지는 주기적인 업그레이드를 통해 새로운 개선 사항과 기능이 추가됩니다. Dataproc 버전 관리를 사용하면 클러스터를 만들 때 소프트웨어 버전 집합을 선택할 수 있습니다.

버전 관리 방식

이미지가 생성되면 다음과 같은 형식의 이미지 버전 번호를 받습니다.

version_major.version_minor.version_sub_minor-os_distribution

다음과 같은 OS 배포판이 현재 유지되고 있습니다.

OS 배포 코드 OS 배포판
centos8 CentOS 8
debian10 Debian 10
ubuntu18 Ubuntu 18

이전에 지원된 OS 배포판에 대해서는 이전 이미지 버전을 참조하세요.

권장되는 방법은 프로덕션 환경용 또는 특정 구성요소 버전이 중요한 경우에 major.minor 이미지 버전을 지정하는 것입니다. 하위 부 및 OS 배포판은 최신 주간 출시 버전으로 자동 설정됩니다.

버전 선택

새로운 Dataproc 클러스터를 만들 때 기본적으로 Debian 이미지 버전이 사용됩니다. 클러스터를 만들 때 CentOS, Debian 또는 Ubuntu 이미지 버전을 선택할 수 있습니다(Dataproc 이미지 버전 목록 참조). Debian 기반 이미지를 지정할 때는 OS 배포 코드 서픽스를 생략할 수 있습니다. 예를 들어 2.0을 지정하여 2.0-debian10 이미지를 선택합니다. CentOS 또는 Ubuntu 기반 이미지를 선택하려면 OS 서픽스를 반드시 사용해야 합니다. 예를 들어 2.0-ubuntu18을 지정해야 합니다.

gcloud 명령

gcloud dataproc clusters create 명령어를 사용할 때는 --image-version 인수를 사용하여 새 클러스터의 이미지 버전을 지정합니다.

Debian 이미지 예시:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0 \
    --region=region

Ubuntu 이미지 예시:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0-ubuntu18 \
    --region=region

권장사항은 최신 하위 부 버전이 사용되도록 하위 부 버전을 생략하는 것입니다. 하지만 필요한 경우 '2,0.20'과 같이 하위 부 버전을 지정할 수 있습니다.

gcloud 명령줄 도구로 현재 버전을 확인할 수 있습니다.

gcloud dataproc clusters describe cluster-name \
    --region=region

REST API

cluster.create API 요청의 일부로 SoftwareConfig imageVersion 필드를 지정할 수 있습니다.

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

콘솔

Dataproc 클러스터 만들기 페이지를 엽니다. 클러스터 설정 패널이 선택되었습니다. 버전 관리 섹션의 이미지 유형 및 버전 필드에는 클러스터를 만들 때 사용되는 이미지가 표시됩니다. 이미지 출시일도 표시됩니다. 처음에는 기본 이미지인 사용 가능한 최신 Debian 버전이 표시됩니다. 변경을 클릭하여 사용 가능한 이미지의 목록을 표시합니다. 클러스터에 사용할 표준 또는 커스텀 이미지를 선택할 수 있습니다.

새 버전 생성 시기

새로운 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.

  • 주요 릴리스:
    • Spark, Hadoop 및 기타 빅데이터 구성요소
    • Google Cloud 커넥터
  • Dataproc 기능의 주요 변경 또는 업데이트

새로운 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.

  • 다음에 대한 세부 릴리스 및 업데이트:
    • Spark, Hadoop 및 기타 빅데이터 구성요소
    • Google Cloud 커넥터
  • Dataproc 기능의 세부 변경 또는 업데이트

새로운 부 버전이 생성되면 해당 Debian 이미지가 주 버전의 기본값이 되며 주 버전의 최신 릴리스를 나타냅니다.

새로운 하위 부 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.

  • 이미지에 있는 구성요소의 패치 또는 수정사항

이미지 버전 및 Dataproc 지원

보조 이미지 버전은 최초 GA(일반 안정화 버전) 출시 후 24개월 동안 지원됩니다. 이 기간 동안 해당 이미지 버전을 사용하는 클러스터가 지원 대상입니다. 수정을 받으려면 지원되는 최신 하위 세부 이미지 버전을 사용하여 클러스터를 다시 만드세요. 지원 기간이 끝난 후에는 이미지 버전을 사용하는 클러스터는 더 이상 지원되지 않습니다.

이전 이미지 버전

이전에 지원된 OS 배포판

이전에 지원됐던 OS 배포판은 다음과 같습니다.

OS 배포 코드 OS 배포판 마지막 패치(지원 종료)
debian9 Debian 9 2020년 7월 10일
deb8 Debian 8 2018년 10월 26일

명시적 OS 배포판이 없는 이미지 버전

2018년 8월 16일 이전에는 이미지 버전이 Debian 8로 빌드되었으며 OS 배포 코드가 생략되었습니다. 이들은 다음 형식으로 지정됩니다.

version_major.version_minor.version_sub_minor

0.1 및 0.2

Dataproc 버전 1.0(일반 안정화 버전) 이전에 알파 또는 베타 버전으로 출시된 이미지 버전에는 Dataproc 지원 정책이 적용되지 않습니다.

버전 관리에 대한 중요 참고 사항