Versions 2.3.x

Composant 2.3.11-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/08
2.3.10-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/29
2.3.9-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/19
2.3.8-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/12
2.3.7-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/07/25
Apache Atlas
action d'initialisation
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
composant facultatif
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
installé
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
installé
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
composant facultatif
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
composant facultatif
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
composant facultatif
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Apache Kafka
action d'initialisation
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
composant facultatif
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
installé
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Apache Sqoop
action d'initialisation
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
installé
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
Connecteur BigQuery
installé
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Connecteur Cloud Storage
installé
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
installé
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
composant facultatif
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
composant facultatif
28.1 28.1 28.1 28.1 28.1
Hue
action d'initialisation
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
installé
11 11 11 11 11
Notebook JupyterLab
composant facultatif
3.6 3.6 3.6 3.6 3.6
Oozie
action d'initialisation
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
installé
micromamba 2.0.5 avec Python 3.11 micromamba 2.0.5 avec Python 3.11 micromamba 2.0.5 avec Python 3.11 micromamba 2.0.5 avec Python 3.11 micromamba 2.0.5 avec Python 3.11
R
installé
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
composant facultatif
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
installé
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
composant facultatif
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
composant facultatif
432 432 432 432 432
Notebook Zeppelin
composant facultatif
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
composant facultatif
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

Modifications importantes apportées à la version 2.3 :

  • La version 2.3 est une image légère qui ne contient que les composants de base, ce qui réduit l'exposition aux failles et expositions courantes (CVE, Common Vulnerabilities and Exposures). Pour répondre à des exigences de conformité de sécurité plus élevées, utilisez la version d'image 2.3 ou ultérieure lorsque vous créez un cluster Dataproc.

  • Si vous choisissez d'installer des composants facultatifs lorsque vous créez un cluster Dataproc avec l'image 2.3, ils seront téléchargés et installés lors de la création du cluster. Cela peut augmenter le temps de démarrage du cluster. Pour éviter ce délai, vous pouvez créer une image personnalisée avec les composants facultatifs préinstallés. Pour ce faire, exécutez generate_custom_image.py avec l'option --optional-components.

Remarques :

  • Voici les composants facultatifs des images 2.3 :

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • Notebook JupyterLab
    • Ranger
    • Solr
    • Bloc-notes Zeppelin
    • ZooKeeper
  • yarn.nodemanager.recovery.enabled et la journalisation d'audit HDFS sont activés par défaut dans les images 2.3.

  • micromamba, au lieu de conda dans les versions d'image précédentes, est installé dans le cadre de l'installation de Python.

  • Les images 2.3.x-*-arm ne sont compatibles qu'avec les composants préinstallés et les composants optionnels suivants. Les autres composants facultatifs 2.3 et toutes les actions d'initialisation ne sont pas compatibles :

  • Problèmes d'installation de Docker et Zeppelin :

    • L'installation échoue si le cluster n'a pas d'accès Internet public. Pour contourner ce problème, créez un cluster qui utilise une image personnalisée avec des composants optionnels préinstallés. Pour ce faire, exécutez generate_custom_image.py avec l'indicateur --optional-components.
    • L'installation peut échouer si le cluster est associé à une ancienne version d'image sous-mineure : les packages sont installés à la demande à partir de dépôts OSS publics, et il est possible qu'un package ne soit pas disponible en amont pour prendre en charge l'installation. Pour contourner ce problème, créez un cluster qui utilise une image personnalisée avec des composants facultatifs préinstallés dans l'image personnalisée. Pour ce faire, exécutez generate_custom_image.py avec l'option --optional-components.

Composants de machine learning (ML) de la version 2.3 de l'image

L'image 2.3-ml-ubuntu Dataproc étend l'image de base 2.3 avec des logiciels spécifiques au ML. Il est compatible avec les composants facultatifs de l'image 2.3 et d'autres fonctionnalités 2.3, et ajoute les versions de composants listées dans les sections suivantes.

Bibliothèques spécifiques aux GPU

Pour les jobs Dataproc qui utilisent des VM GPU, les pilotes et bibliothèques NVIDIA suivants sont disponibles dans l'image 2.3-ml-ubuntu. Vous pouvez les utiliser pour effectuer les tâches suivantes :

  • Accélérer les charges de travail Spark par lot avec la bibliothèque NVIDIA Spark Rapids
  • Entraîner des charges de travail de machine learning
  • Exécuter l'inférence par lots distribuée à l'aide de Spark
Nom du package Version
Spark Rapids 25.04.0
Pilote NVIDIA Ubuntu 22.04 LTS accéléré avec le pilote NVIDIA version 570
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

Bibliothèques XGBoost

Les versions de package Maven suivantes sont disponibles dans l'image 2.3-ml-ubuntu pour vous permettre d'utiliser XGBoost avec Spark en Java ou Scala.

ID du groupe Nom du package Version
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Bibliothèques Python

L'image 2.3-ml-ubuntu contient les bibliothèques suivantes, qui prennent en charge différentes étapes du cycle de vie du ML.

Bibliothèques Python de l'image `2.3-ml-ubuntu`
Package Version
accélérer1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask2023.12.1
ensembles de données3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet2023.10.1
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
koalas0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
notebook6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
papermill2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23.7
pytables3.9.2
python3.11
regex2023.12.25
requêtes2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
bien galbé2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizers0.21.4.dev0
toree0.5.0
torche2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tornade6.4.2
torchvision0.21.0
traitlets5.14.3
transformers4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
xgboost2.1.4

Bibliothèques R

Les versions suivantes de la bibliothèque R sont incluses dans l'image 2.3-ml-ubuntu.

Bibliothèques R de l'image `2.3-ml-ubuntu`
Nom du package Version
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1.98-1.16
r-recommended 4.3