Versi rilis 2.3.x

Komponen 2.3.11-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/08
2.3.10-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/29
2.3.9-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/19
2.3.8-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/12
2.3.7-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/07/25
Tindakan inisialisasi
Apache Atlas
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Komponen opsional
Apache Flink
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
terinstal
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
yang diinstal
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
komponen opsional
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
komponen opsional
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
komponen opsional
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Tindakan inisialisasi Apache Kafka
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
komponen opsional
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
terinstal
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Tindakan inisialisasi Apache Sqoop
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
terinstal
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
Konektor BigQuery
terinstal
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Cloud Storage Connector
terinstal
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
diinstal
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
opsional component
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
opsional komponen
28.1 28.1 28.1 28.1 28.1
Tindakan inisialisasi
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
terinstal
11 11 11 11 11
Komponen opsional
Notebook JupyterLab
3.6 3.6 3.6 3.6 3.6
Tindakan inisialisasi Oozie
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
terinstal
micromamba 2.0.5 dengan Python 3.11 micromamba 2.0.5 dengan Python 3.11 micromamba 2.0.5 dengan Python 3.11 micromamba 2.0.5 dengan Python 3.11 micromamba 2.0.5 dengan Python 3.11
R
terpasang
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
komponen opsional
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
terinstal
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
komponen opsional
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
komponen opsional
432 432 432 432 432
Komponen opsional Zeppelin Notebook
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
komponen opsional
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

Perubahan penting di 2.3:

  • Versi 2.3 adalah image ringan yang hanya berisi komponen inti, sehingga mengurangi eksposur terhadap Common Vulnerabilities and Exposures (CVE). Untuk persyaratan kepatuhan keamanan yang lebih tinggi, gunakan versi image 2.3atau yang lebih baru saat membuat cluster Dataproc.

  • Jika Anda memilih untuk menginstal komponen opsional saat membuat cluster Dataproc dengan image 2.3, komponen tersebut akan didownload dan diinstal selama pembuatan cluster. Hal ini dapat meningkatkan waktu startup cluster. Untuk menghindari penundaan ini, Anda dapat membuat image kustom dengan komponen opsional yang sudah diinstal sebelumnya. Hal ini dapat dilakukan dengan menjalankan generate_custom_image.py dengan flag --optional-components.

Catatan:

  • Berikut adalah komponen opsional dalam image 2.3:

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • Notebook JupyterLab
    • Ranger
    • Solr
    • Zeppelin Notebook
    • Zookeeper
  • yarn.nodemanager.recovery.enabled dan HDFS Audit Logging diaktifkan secara default dalam image 2.3.

  • micromamba, bukan conda di versi image sebelumnya, diinstal sebagai bagian dari penginstalan Python.

  • Gambar 2.3.x-*-arm hanya mendukung komponen yang telah diinstal sebelumnya dan komponen opsional berikut. 2.3 komponen opsional lainnya dan semua tindakan inisialisasi tidak didukung:

  • Masalah penginstalan Docker dan Zeppelin:

    • Penginstalan akan gagal jika cluster tidak memiliki akses internet publik. Sebagai solusi, buat cluster yang menggunakan image kustom dengan komponen opsional yang sudah diinstal sebelumnya. Anda dapat melakukannya dengan menjalankan generate_custom_image.py dengan flag --optional-components.
    • Penginstalan dapat gagal jika cluster disematkan ke versi image sub-minor yang lebih lama: Paket diinstal sesuai permintaan dari repositori OSS publik, dan paket mungkin tidak tersedia di upstream untuk mendukung penginstalan. Sebagai solusi sementara, buat cluster yang menggunakan image kustom dengan komponen opsional yang sudah diinstal sebelumnya di image kustom. Untuk melakukannya, jalankan generate_custom_image.py dengan flag --optional-components.

Komponen machine learning (ML) versi 2.3 gambar

Image Dataproc 2.3-ml-ubuntu memperluas image dasar 2.3 dengan software khusus ML. Ini mendukung komponen opsional gambar 2.3 dan fitur 2.3 lainnya, serta menambahkan versi komponen yang tercantum di bagian berikut.

Library khusus GPU

Untuk tugas Dataproc yang menggunakan VM GPU, driver dan library NVIDIA berikut tersedia di image 2.3-ml-ubuntu. Anda dapat menggunakannya untuk menyelesaikan tugas berikut:

  • Percepat workload batch Spark dengan library NVIDIA Spark Rapids
  • Melatih workload machine learning
  • Menjalankan inferensi batch terdistribusi menggunakan Spark
Nama Paket Versi
Spark Rapids 25.04.0
Driver NVIDIA Ubuntu 22.04 LTS yang Dipercepat dengan driver NVIDIA versi 570
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

Library XGBoost

Versi paket Maven berikut tersedia di image 2.3-ml-ubuntu agar Anda dapat menggunakan XGBoost dengan Spark di Java atau Scala.

ID Grup Nama Paket Versi
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Library Python

Image 2.3-ml-ubuntu berisi library berikut, yang mendukung berbagai tahapan dalam siklus proses ML.

Library Python image `2.3-ml-ubuntu`
Paket Versi
mempercepat1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask1 Desember 2023
datasets3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet1 Oktober 2023
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
koala0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
notebook6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
pabrik kertas2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23.7
pytables3.9.2
python3.11
regex25 Desember 2023
permintaan2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
berbentuk indah2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizer0.21.4.dev0
toree0.5.0
senter2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tornado6.4.2
torchvision0.21.0
traitlets5.14.3
transformer4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
xgboost2.1.4

Library R

Versi library R berikut disertakan dalam image 2.3-ml-ubuntu.

Library R image `2.3-ml-ubuntu`
Nama Paket Versi
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1.98-1.16
r-direkomendasikan 4.3