Pembuatan Versi Dataproc

Dataproc menggunakan image untuk menghubungkan konektor Google Cloud Platform yang berguna serta komponen Apache Spark & Apache Hadoop ke dalam satu paket yang dapat di-deploy pada cluster Dataproc. Image ini berisi sistem operasi dasar (Debian atau Ubuntu) untuk cluster, beserta komponen inti dan opsional yang diperlukan untuk menjalankan tugas, seperti Spark, Hadoop, dan Hive. Gambar ini akan diupgrade secara berkala untuk menyertakan peningkatan dan fitur baru. Pembuatan versi Dataproc memungkinkan Anda memilih kumpulan versi software saat membuat cluster.

Cara kerja pembuatan versi

Saat dibuat, gambar diberi nomor Versi Gambar dalam format berikut:

version_major.version_minor.version_sub_minor-os_distribution

Distribusi OS berikut saat ini dikelola:

Kode Distribusi OS Distribusi OS
debian12 Debian 12
debian10 Debian 10
debian11 Debian 11
rocky8 Rocky Linux 8
rocky9 Rocky Linux 9
ubuntu18 Ubuntu 18.04 LTS
ubuntu20 Ubuntu 20.04 LTS
ubuntu22 Ubuntu 22.04 LTS

Lihat versi image lama untuk distribusi OS yang didukung sebelumnya.

Praktik yang direkomendasikan adalah menentukan versi image major.minor untuk lingkungan produksi, atau jika kompatibilitas dengan versi komponen tertentu menjadi penting. Distribusi OS dan sub-minor akan otomatis ditetapkan ke rilis mingguan terbaru.

Memilih versi

Saat Anda membuat cluster Dataproc baru, versi image Debian terbaru yang tersedia akan digunakan secara default. Anda dapat memilih versi image Debian, Rocky Linux, atau Ubuntu saat membuat cluster (lihat Daftar versi Image Dataproc). Saat menentukan gambar berbasis Debian, Anda dapat menghilangkan akhiran Kode Distribusi OS, misalnya dengan menentukan 2.0 untuk memilih image 2.0-debian10. Akhiran OS harus digunakan untuk memilih image berbasis Rocky Linux atau Ubuntu, misalnya dengan menentukan 2.0-ubuntu18.

Perintah gcloud

Saat menggunakan perintah gcloud dataproc clusters create, Anda dapat menggunakan argumen --image-version guna menentukan versi image untuk cluster baru.

Contoh image Debian:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0 \
    --region=region

Contoh image Ubuntu:

gcloud dataproc clusters create cluster-name \
    --image-version=2.0-ubuntu18 \
    --region=region

Praktik terbaiknya adalah menghapus versi sub-minor sehingga versi sub-minor terbaru digunakan. Namun, jika perlu, versi lebih kecil dapat ditentukan, misalnya, "2.0.20".

Anda dapat memeriksa versi saat ini dengan Google Cloud CLI.

gcloud dataproc clusters describe cluster-name \
    --region=region

REST API

Anda dapat menentukan kolom SoftwareConfig imageVersion sebagai bagian dari permintaan API cluster.create.

Contoh

POST /v1/projects/project-id/regions/us-central1/clusters/
{
  "projectId": "project-id",
  "clusterName": "example-cluster",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      ...
      }
    },
    "workerConfig": {
      ...
      }
    },
    "softwareConfig": {
      "imageVersion": "2.0"
    }
  }
}
  

Konsol

Buka halaman Buat cluster Dataproc. Panel Siapkan cluster dipilih. Kolom Image Type dan Version di bagian Pembuatan Versi menampilkan image yang akan digunakan saat membuat cluster. Tanggal rilis gambar juga akan ditampilkan. Awalnya, image default, versi Debian terbaru yang tersedia, ditampilkan sebagai dipilih. Klik UBAH untuk menampilkan daftar gambar yang tersedia. Anda dapat memilih gambar standar atau gambar kustom yang akan digunakan untuk cluster Anda.

Saat versi baru dibuat

Versi utama baru akan dibuat secara berkala untuk menyertakan satu atau beberapa hal berikut:

  • Rilis utama untuk:
    • Spark, Hadoop, dan komponen Big Data lainnya
    • Konektor Google Cloud
  • Perubahan atau update besar pada fungsi Dataproc

Versi pratinjau baru (dengan akhiran -RC) dirilis sebelum rilis versi utama yang baru:

  • Gambar pratinjau tidak dimaksudkan untuk digunakan dalam beban kerja produksi.
  • Versi komponen gambar pratinjau dapat diupgrade ke versi komponen terbaru yang tersedia pada versi image GA setelah pratinjau.

Versi minor baru akan dibuat secara berkala untuk menyertakan satu atau beberapa hal berikut:

  • Rilis dan update minor untuk:
    • Spark, Hadoop, dan komponen Big Data lainnya
    • Konektor Google Cloud
  • Perubahan kecil atau update pada fungsi Dataproc

Saat versi minor baru dibuat, image Debian-nya akan menjadi default untuk versi utama, dan mewakili rilis terbaru dari versi utama.

Versi *sub-minor baru akan dibuat secara berkala untuk menyertakan satu atau beberapa hal berikut:

  • Patch atau perbaikan untuk komponen dalam gambar
  • Upgrade versi sub-minor komponen

Versi Image dan dukungan Dataproc

Versi image minor didukung selama 24 bulan setelah rilis GA (Ketersediaan Umum) awal. Selama periode ini, cluster yang menggunakan versi gambar ini memenuhi syarat untuk mendapatkan dukungan (untuk menerima perbaikan, buat ulang cluster Anda menggunakan versi gambar sub-minor terbaru yang didukung). Setelah jendela dukungan ditutup, cluster yang menggunakan versi image tidak memenuhi syarat untuk mendapatkan dukungan.

Versi Image Lama

Distribusi OS yang sebelumnya didukung

Distribusi OS berikut sebelumnya didukung:

Kode Distribusi OS Distribusi OS Terakhir Di-patch (Akhir dukungan)
debian9 Debian 9 10 Juli 2020
deb8 Debian 8 26 Oktober 2018

Versi Image tanpa distribusi OS eksplisit

Sebelum 16 Agustus 2018, versi image dibuat dengan Debian 8, dan menghilangkan Kode Distribusi OS. Parameter tersebut ditentukan dalam format berikut:

version_major.version_minor.version_sub_minor

0,1 dan 0,2

Versi image yang dirilis sebagai rilis alfa atau beta sebelum ketersediaan umum 1.0 versi Dataproc tidak tunduk pada kebijakan dukungan Dataproc.

Catatan penting tentang pembuatan versi