Dataproc은 이미지를 사용하여 유용한 Google Cloud커넥터와 Apache Spark 및 Apache Hadoop 구성요소를 Dataproc 클러스터에 배포할 수 있는 단일 패키지로 묶습니다.
이 이미지에는 Spark, Hadoop, Hive와 같은, 작업 실행에 필요한 핵심 및 선택사항 구성요소와 함께 클러스터의 기본 운영체제(Debian 또는 Ubuntu)가 포함되어 있습니다.
이러한 이미지는 새로운 개선사항과 기능을 포함하도록 주기적으로 업그레이드됩니다. Dataproc 버전 관리를 사용하면 클러스터를 만들 때 소프트웨어 버전 집합을 선택할 수 있습니다.
권장되는 방법은 프로덕션 환경용으로, 또는 특정 구성요소 버전과의 호환성이 중요한 경우에 major.minor 이미지 버전을 지정하는 것입니다. 하위 마이너 버전 및 OS 배포판은 최신 주간 출시 버전으로 자동 설정됩니다.
버전 선택
새 Dataproc 클러스터를 만들 때는 사용 가능한 최신 Debian 이미지 버전이 기본적으로 사용됩니다. 클러스터를 만들 때 Debian, Rocky Linux, Ubuntu 이미지 버전을 선택할 수 있습니다(Dataproc 이미지 버전 목록 참조).
Debian 기반 이미지를 지정할 때는 OS 배포 코드 서픽스를 생략할 수 있습니다. 예를 들어 2.0을 지정하여 2.0-debian10 이미지를 선택합니다.
Rocky Linux 또는 Ubuntu 기반 이미지를 선택하려면 OS 서픽스를 반드시 사용해야 합니다. 예를 들어 2.0-ubuntu18을 지정합니다.
gcloud 명령어
gcloud dataproc clusters create 명령어를 사용할 때는 --image-version 인수를 사용하여 새 클러스터의 이미지 버전을 지정합니다.
Dataproc 클러스터 만들기 페이지를 엽니다. 클러스터 설정 패널이 선택되었습니다.
버전 관리 섹션의 이미지 유형 및 버전 필드에는 클러스터를 만들 때 사용되는 이미지가 표시됩니다. 이미지 출시일도 표시됩니다. 처음에는 기본 이미지인 사용 가능한 최신 Debian 버전이 표시됩니다.
변경을 클릭하여 사용 가능한 이미지의 목록을 표시합니다. 클러스터에 사용할 표준 또는 커스텀 이미지를 선택할 수 있습니다.
새 버전 생성 시기
새로운 메이저 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.
주요 릴리스:
Spark, Hadoop 및 기타 빅데이터 구성요소
Google Cloud 커넥터
Dataproc 기능의 주요 변경 또는 업데이트
새로운 미리보기 버전(-RC 서픽스 포함)은 새로운 메이저 버전이 출시되기 전에 출시됩니다.
미리보기 이미지는 프로덕션 워크로드에 사용될 수 없습니다.
미리보기 이미지 구성요소 버전은 미리보기 후 GA 이미지 버전에서 사용 가능한 최신 구성요소 버전으로 업그레이드될 수 있습니다.
새로운 마이너 버전은 다음 중 하나 이상을 통합하기 위해 주기적으로 생성됩니다.
다음에 대한 세부 릴리스 및 업데이트:
Spark, Hadoop 및 기타 빅데이터 구성요소
Google Cloud 커넥터
Dataproc 기능의 세부 변경 또는 업데이트
새로운 마이너 버전이 생성되면 해당 Debian 이미지가 메이저 버전의 기본값이 되며 메이저 버전의 최신 릴리스를 나타냅니다.
다음 중 하나 이상을 통합하기 위해 새 하위 마이너 버전이 주기적으로 생성됩니다.
이미지에 있는 구성요소의 패치 또는 수정사항
구성요소 하위 마이너 버전 업그레이드
이미지 버전 및 Dataproc 지원
보조 이미지 버전은 최초 GA(일반 안정화 버전) 출시 후 24개월 동안 지원됩니다. 이 기간 동안 해당 이미지 버전을 사용하는 클러스터가 지원 대상입니다. 수정을 받으려면 지원되는 최신 하위 세부 이미지 버전을 사용하여 클러스터를 다시 만드세요. 지원 기간이 끝난 후에는 이미지 버전을 사용하는 클러스터는 더 이상 지원되지 않습니다.
이전 이미지 버전
이전에 지원된 OS 배포판
이전에 지원됐던 OS 배포판은 다음과 같습니다.
OS 배포 코드
OS 배포판
마지막 패치(지원 종료)
debian9
Debian 9
2020년 7월 10일
deb8
Debian 8
2018년 10월 26일
명시적 OS 배포판이 없는 이미지 버전
2018년 8월 16일 이전에는 이미지 버전이 Debian 8로 빌드되었으며 OS 배포 코드가 생략되었습니다. 이들은 다음 형식으로 지정됩니다.
version_major.version_minor.version_sub_minor
버전 0.1 및 0.2
Dataproc 버전 1.0(정식 버전) 이전에 알파 또는 베타 버전으로 출시된 이미지 버전에는 Dataproc 지원 정책이 적용되지 않습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-08-27(UTC)"],[[["\u003cp\u003eDataproc images bundle Google Cloud connectors and Apache Spark & Hadoop components, deploying them as a single package on a Dataproc cluster.\u003c/p\u003e\n"],["\u003cp\u003eImage versions are structured as \u003ccode\u003emajor.minor.subminor-os_distribution\u003c/code\u003e, allowing selection of specific software sets when creating clusters, with the OS distribution being mandatory for Rocky Linux and Ubuntu images.\u003c/p\u003e\n"],["\u003cp\u003eSpecifying \u003ccode\u003emajor.minor\u003c/code\u003e image versions is recommended for production environments to maintain compatibility, automatically selecting the latest weekly subminor and OS distribution release.\u003c/p\u003e\n"],["\u003cp\u003eNew major, minor, and subminor image versions are released periodically to incorporate updates, fixes, and new releases for components like Spark, Hadoop, and Google Cloud connectors.\u003c/p\u003e\n"],["\u003cp\u003eClusters using supported minor image versions are eligible for support for 24 months after their general availability, requiring recreation using the latest subminor version to receive fixes.\u003c/p\u003e\n"]]],[],null,["Dataproc uses images to tie together useful Google Cloud\nconnectors and Apache Spark \\& Apache Hadoop components into one package that\ncan be deployed on a Dataproc cluster.\nThese images contain the base operating system (Debian or Ubuntu) for the\ncluster, along with [core and optional components](/dataproc/docs/concepts/components/overview)\nneeded to run jobs, such as Spark, Hadoop, and Hive.\nThese images are periodically upgraded to include new improvements and\nfeatures. Dataproc versioning lets you select sets of software\nversions when you create clusters.\n\nHow versioning works\n\nWhen an image is created, it is given an\n[image version](/dataproc/docs/concepts/versioning/dataproc-versions) number\nin the following format:\n\n`version_major.version_minor.version_sub_minor-os_distribution`\n\nThe following OS distributions are maintained:\n\n| OS Distribution Code | OS Distribution |\n|----------------------|------------------|\n| debian12 | Debian 12 |\n| debian10 | Debian 10 |\n| debian11 | Debian 11 |\n| rocky8 | Rocky Linux 8 |\n| rocky9 | Rocky Linux 9 |\n| ubuntu18 | Ubuntu 18.04 LTS |\n| ubuntu20 | Ubuntu 20.04 LTS |\n| ubuntu22 | Ubuntu 22.04 LTS |\n\nSee [old image versions](#old_image_versions) for previously supported OS\ndistributions.\n\nThe recommended practice is to specify the `major.minor` image\nversion for production environments or when compatibility with specific component\nversions is important. The subminor and OS distributions are automatically\nset to the latest weekly release.\n\nSelect versions\n\nWhen you create a new Dataproc cluster, the latest available\n**Debian** image version are used by default. You can select a\nDebian, Rocky Linux or Ubuntu image version when creating a cluster (see the\n[Dataproc image version list](/dataproc/docs/concepts/versioning/dataproc-versions)).\nWhen specifying Debian-based images, you can omit the OS Distribution\nCode suffix, for example by specifying `2.0` to select the `2.0-debian10` image.\nThe OS suffix **must** be used to select a Rocky Linux or\nUbuntu-based image, for example by specifying `2.0-ubuntu18`. \n\ngcloud command\n\nWhen using the `gcloud dataproc clusters create` command, you can\nuse the `--image-version` argument to specify an image version for\nthe new cluster.\n\n**Debian image example:** \n\n```\ngcloud dataproc clusters create CLUSTER_NAME \\\n --image-version=2.0 \\\n --region=REGION\n```\n\n**Ubuntu image example:** \n\n```\ngcloud dataproc clusters create CLUSTER_NAME \\\n --image-version=2.0-ubuntu18 \\\n --region=REGION\n```\n\nBest practice is to omit the subminor version so that the latest subminor\nversion is used. However, if necessary, the subminor version can be specified,\nfor example, `2.0.20`.\n\nYou can check your current version with the Google Cloud CLI. \n\n```\ngcloud dataproc clusters describe CLUSTER_NAME \\\n --region=REGION\n```\n\nREST API\n\nYou can specify the `SoftwareConfig`\n[imageVersion](/dataproc/docs/reference/rest/v1/ClusterConfig#SoftwareConfig)\nfield as part of a\n[cluster.create](/dataproc/docs/reference/rest/v1/projects.regions.clusters/create)\nAPI request.\n\n**Example** \n\n```\nPOST /v1/projects/project-id/regions/us-central1/clusters/\n{\n \"projectId\": \"project-id\",\n \"clusterName\": \"example-cluster\",\n \"config\": {\n \"configBucket\": \"\",\n \"gceClusterConfig\": {\n \"subnetworkUri\": \"default\",\n \"zoneUri\": \"us-central1-b\"\n },\n \"masterConfig\": {\n ...\n }\n },\n \"workerConfig\": {\n ...\n }\n },\n \"softwareConfig\": {\n \"imageVersion\": \"2.0\"\n }\n }\n}\n \n```\n\nConsole\n\nOpen the Dataproc\n[Create a cluster](https://console.cloud.google.com/dataproc/clustersAdd)\npage. The **Set up cluster** panel is selected.\nThe **Image type** and **Version** field in the\n**Versioning** section shows the image that will be used when\ncreating the cluster. The image release date is also shown. Initially, the\ndefault image, the latest available Debian version, is shown as selected.\nClick **Change** to display a lists of available images. You\ncan select a standard or\n[custom image](/dataproc/docs/guides/dataproc-images) to use for\nyour cluster.\n\nWhen new versions are created\n\nNew **major** versions are periodically created to incorporate\none or more of the following:\n\n- Major releases for:\n - Spark, Hadoop, and other Big Data components\n - Google Cloud connectors\n- Major changes or updates to Dataproc functionality\n\nNew **preview** versions (with a `-RC` suffix) are released prior to the release\nof a new major version:\n\n- Preview images are not intended for use in production workloads.\n- Preview image component versions might be upgraded to the latest available component version in the post-preview GA image version.\n\nNew **minor** versions are periodically created to incorporate\none or more of the following:\n\n- Minor releases and updates for:\n - Spark, Hadoop, and other Big Data components\n - Google Cloud connectors\n- Minor changes or updates to Dataproc functionality\n\nWhen a new minor version is created, its Debian image becomes the default for the major\nversion, and represents the latest release of the major version.\n\nNew **subminor** versions are periodically created to incorporate\none or more of the following:\n\n- Patches or fixes for a component in the image\n- Component subminor version upgrades\n\nImage version and Dataproc support\n\nMinor image versions are supported for 24 months after initial\nGA (General Availability) release. During this period, clusters using these\nimage versions are eligible for support (to receive fixes, recreate your cluster\nusing the latest supported subminor image version). After the support window\nhas closed, clusters using the image versions aren't eligible for support.\n\nOld image versions\n\nPreviously supported OS distributions\n\nThe following OS distributions were previously supported:\n\n| OS Distribution Code | OS Distribution | Last Patched (End of support) |\n|----------------------|-----------------|-------------------------------|\n| debian9 | Debian 9 | July 10, 2020 |\n| deb8 | Debian 8 | October 26, 2018 |\n\nImage versions without explicit OS distribution\n\nPrior to August 16, 2018, image versions were built with Debian 8, and omitted\nthe OS Distribution Code. They are specified in the following format:\n\n`version_major.version_minor.version_sub_minor`\n\nVersions 0.1 and 0.2\n\nImage versions released as alpha or beta releases prior to\nDataproc version `1.0` general availability\naren't subject to the\n[Dataproc support policy](#image-version-support).\n\nImportant notes about versioning\n\n- Image versions contain the following components:\n - [Core components](/dataproc/docs/concepts/components/overview) that are installed on all clusters, such as Spark, Hadoop, and Hive\n - [Optional components](/dataproc/docs/concepts/components/overview#available_optional_components) that you specify when you create a cluster\n- Your Dataproc clusters are not automatically updated when new image versions are released.\n - **Recommendations:**\n - Run clusters with the latest [subminor image version](/dataproc/docs/concepts/versioning/dataproc-version-clusters#debian_images). Image metadata includes a `previous-subminor` label, which is set to `true` if the cluster is not using the latest subminor image version.\n - To view image metadata:\n 1. Run the following [`gcloud compute images list --filter`](/sdk/gcloud/reference/compute/images/list#--filter) command to list the resource name of a Dataproc image. \n\n ```\n gcloud compute images list --project=PROJECT_NAME --filter=\"labels.goog-dataproc-version ~ ^IMAGE_VERSION (such as `2.2.16-debian12`)\"\n ```\n 2. Run the following [`gcloud compute images describe`](/sdk/gcloud/reference/compute/images/describe) to view image metadata. \n\n ```\n gcloud compute images describe --project=PROJECT_NAME IMAGE_NAME\"\n ```\n - Test and validate that your applications run successfully on clusters created with new image versions, particularly when using new major image version releases."]]