Modifications importantes apportées à la version 2.3 :
La version
2.3
est une image légère qui ne contient que les composants de base, ce qui réduit l'exposition aux failles et expositions courantes (CVE, Common Vulnerabilities and Exposures). Pour répondre à des exigences de conformité de sécurité plus élevées, utilisez la version d'image2.3
ou ultérieure lorsque vous créez un cluster Dataproc.Si vous choisissez d'installer des composants facultatifs lorsque vous créez un cluster Dataproc avec l'image
2.3
, ils seront téléchargés et installés lors de la création du cluster. Cela peut augmenter le temps de démarrage du cluster. Pour éviter ce délai, vous pouvez créer une image personnalisée avec les composants facultatifs préinstallés. Pour ce faire, exécutezgenerate_custom_image.py
avec l'option--optional-components
.
Remarques :
Voici les composants facultatifs des images 2.3 :
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- Notebook JupyterLab
- Ranger
- Solr
- Bloc-notes Zeppelin
- ZooKeeper
yarn.nodemanager.recovery.enabled
et la journalisation d'audit HDFS sont activés par défaut dans les images 2.3.micromamba, au lieu de conda dans les versions d'image précédentes, est installé dans le cadre de l'installation de Python.
Les images
2.3.x-*-arm
ne sont compatibles qu'avec les composants préinstallés et les composants optionnels suivants. Les autres composants facultatifs 2.3 et toutes les actions d'initialisation ne sont pas compatibles :- Apache Hive WebHCat
- Docker
- Zeppelin
- Zookeeper (installé dans les clusters à haute disponibilité ; composant facultatif dans les autres clusters)
Problèmes d'installation de Docker et Zeppelin :
- L'installation échoue si le cluster n'a pas d'accès Internet public. Pour contourner ce problème, créez un cluster qui utilise une image personnalisée avec des composants optionnels préinstallés. Pour ce faire, exécutez
generate_custom_image.py
avec l'indicateur--optional-components
. - L'installation peut échouer si le cluster est associé à une ancienne version d'image sous-mineure : les packages sont installés à la demande à partir de dépôts OSS publics, et il est possible qu'un package ne soit pas disponible en amont pour prendre en charge l'installation.
Pour contourner ce problème, créez un cluster qui utilise une image personnalisée avec des composants facultatifs préinstallés dans l'image personnalisée. Pour ce faire, exécutez
generate_custom_image.py
avec l'option--optional-components
.
- L'installation échoue si le cluster n'a pas d'accès Internet public. Pour contourner ce problème, créez un cluster qui utilise une image personnalisée avec des composants optionnels préinstallés. Pour ce faire, exécutez
Composants de machine learning (ML) de la version 2.3 de l'image
L'image 2.3-ml-ubuntu
Dataproc étend l'image de base 2.3 avec des logiciels spécifiques au ML. Il est compatible avec les composants facultatifs de l'image 2.3 et d'autres fonctionnalités 2.3, et ajoute les versions de composants listées dans les sections suivantes.
Bibliothèques spécifiques aux GPU
Pour les jobs Dataproc qui utilisent des VM GPU, les pilotes et bibliothèques NVIDIA suivants sont disponibles dans l'image 2.3-ml-ubuntu
. Vous pouvez les utiliser pour effectuer les tâches suivantes :
- Accélérer les charges de travail Spark par lot avec la bibliothèque NVIDIA Spark Rapids
- Entraîner des charges de travail de machine learning
- Exécuter l'inférence par lots distribuée à l'aide de Spark
Nom du package | Version |
---|---|
Spark Rapids | 25.04.0 |
Pilote NVIDIA | Ubuntu 22.04 LTS accéléré avec le pilote NVIDIA version 570 |
CUDA | 12.6.3 |
cublas | 12.6.4 |
cusolver | 11.7.1 |
cupti | 12.6.80 |
cusparse | 12.5.4 |
cuDNN | 9.10.1 |
NCCL | 2.27.5 |
Bibliothèques XGBoost
Les versions de package Maven suivantes sont disponibles dans l'image 2.3-ml-ubuntu
pour vous permettre d'utiliser XGBoost avec Spark en Java ou Scala.
ID du groupe | Nom du package | Version |
---|---|---|
ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Bibliothèques Python
L'image 2.3-ml-ubuntu
contient les bibliothèques suivantes, qui prennent en charge différentes étapes du cycle de vie du ML.
Package | Version |
---|---|
accélérer | 1.8.1 |
conda | 23.11.0 |
cookiecutter | 2.5.0 |
curl | 8.12.1 |
cython | 3.0.12 |
dask | 2023.12.1 |
ensembles de données | 3.6.0 |
deepspeed | 0.17.2 |
delta-spark | 3.2.0 |
evaluate | 0.4.5 |
fastavro | 1.9.7 |
fastparquet | 2023.10.1 |
fiona | 1.10.0 |
gateway-provisioners[yarn] | 0.4.0 |
gcsfs | 2023.12.2.post1 |
google-auth-oauthlib | 1.2.2 |
google-cloud-aiplatform | 1.88.0 |
google-cloud-bigquery[pandas] | 3.31.0 |
google-cloud-bigquery-storage | 2.30.0 |
google-cloud-bigtable | 2.30.1 |
google-cloud-container | 2.56.1 |
google-cloud-datacatalog | 3.26.1 |
google-cloud-dataproc | 5.18.1 |
google-cloud-datastore | 2.21.0 |
google-cloud-language | 2.17.2 |
google-cloud-logging | 3.11.4 |
google-cloud-monitoring | 2.27.2 |
google-cloud-pubsub | 2.29.1 |
google-cloud-redis | 2.18.1 |
google-cloud-spanner | 3.53.0 |
google-cloud-speech | 2.32.0 |
google-cloud-storage | 2.19.0 |
google-cloud-texttospeech | 2.25.1 |
google-cloud-translate | 3.20.3 |
google-cloud-vision | 3.10.2 |
huggingface_hub | 0.33.1 |
httplib2 | 0.22.0 |
ipyparallel | 8.6.1 |
ipython-sql | 0.3.9 |
ipywidgets | 8.1.7 |
jupyter_contrib_nbextensions | 0.7.0 |
jupyter_http_over_ws | 0.0.8 |
jupyter_kernel_gateway | 2.5.2 |
jupyter_server | 1.24.0 |
jupyterhub | 4.1.6 |
jupyterlab | 3.6.8 |
jupyterlab-git | 0.44.0 |
jupyterlab_widgets | 3.0.15 |
koalas | 0.22.0 |
langchain | 0.3.26 |
lightgbm | 4.6.0 |
markdown | 3.5.2 |
matplotlib | 3.8.4 |
mlflow | 3.1.1 |
nbconvert | 7.14.2 |
nbdime | 3.2.1 |
nltk | 3.9.1 |
notebook | 6.5.7 |
numba | 0.58.1 |
numpy | 1.26.4 |
oauth2client | 4.1.3 |
onnx | 1.17.0 |
openblas | 0.3.25 |
opencv | 4.11.0 |
orc | 2.1.1 |
pandas | 2.1.4 |
pandas-profiling | 3.0.0 |
papermill | 2.4.0 |
pyarrow | 16.1.0 |
pydot | 2.0.0 |
pyhive | 0.7.0 |
pynvml | 12.0.0 |
pysal | 23.7 |
pytables | 3.9.2 |
python | 3.11 |
regex | 2023.12.25 |
requêtes | 2.32.2 |
requests-kerberos | 0.12.0 |
rtree | 1.1.0 |
scikit-image | 0.22.0 |
scikit-learn | 1.5.2 |
scipy | 1.11.4 |
seaborn | 0.13.2 |
sentence-transformers | 5.0.0 |
setuptools | 79.0.1 |
shap | 0.48.0 |
bien galbé | 2.1.1 |
spacy | 3.8.7 |
spark-tensorflow-distributor | 1.0.0 |
spyder | 5.5.6 |
sqlalchemy | 2.0.41 |
sympy | 1.13.3 |
tensorflow | 2.18.0 |
tokenizers | 0.21.4.dev0 |
toree | 0.5.0 |
torche | 2.6.0 |
torch-model-archiver | 0.11.1 |
torcheval | 0.0.7 |
tornade | 6.4.2 |
torchvision | 0.21.0 |
traitlets | 5.14.3 |
transformers | 4.53.1 |
uritemplate | 4.1.1 |
virtualenv | 20.26.6 |
wordcloud | 1.9.4 |
xgboost | 2.1.4 |
Bibliothèques R
Les versions suivantes de la bibliothèque R sont incluses dans l'image 2.3-ml-ubuntu
.
Nom du package | Version |
---|---|
r-ggplot2 | 3.4.4 |
r-irkernel | 1.3.2 |
r-rcurl | 1.98-1.16 |
r-recommended | 4.3 |