Versiones 2.3.x

Componente 2.3.11-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/08
2.3.10-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/29
2.3.9-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/19
2.3.8-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/12
2.3.7-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/07/25
Acción de inicialización de
Apache Atlas
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
componente opcional
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
instalado
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
instalado
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Componente opcional de
Apache Hive WebHCat
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
componente opcional
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
componente opcional
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Acción de inicialización de
Apache Kafka
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
componente opcional
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
instalado
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Acción de inicialización de
Apache Sqoop
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
instalado
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
Conector de BigQuery
instalado
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Conector de Cloud Storage
instalado
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
instalado
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
componente opcional
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
componente opcional
28.1 28.1 28.1 28.1 28.1
Acción de inicialización de
Hue
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
instalado
11 11 11 11 11
Componente opcional de
Notebook de JupyterLab
3.6 3.6 3.6 3.6 3.6
Acción de inicialización de
Oozie
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
instalado
micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11
R
instalado
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Componente opcional de
Ranger
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
instalado
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Componente opcional de
Solr
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
componente opcional
432 432 432 432 432
Componente opcional de
Notebook de Zeppelin
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Componente opcional de
Zookeeper
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

Cambios importantes en la versión 2.3:

  • La versión 2.3 es una imagen ligera que contiene solo componentes principales, lo que reduce la exposición a vulnerabilidades y exposiciones comunes (CVE). Para cumplir con requisitos de seguridad más estrictos, usa la versión de imagen 2.3 o posterior cuando crees un clúster de Dataproc.

  • Si eliges instalar componentes opcionales cuando crees un clúster de Dataproc con la imagen 2.3, se descargarán y se instalarán durante la creación del clúster. Esto podría aumentar el tiempo de inicio del clúster. Para evitar esta demora, puedes crear una imagen personalizada con los componentes opcionales preinstalados. Esto se logra ejecutando generate_custom_image.py con la marca --optional-components.

Notas:

  • Los siguientes son los componentes opcionales en las imágenes 2.3:

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • Notebook de JupyterLab
    • Ranger
    • Solr
    • Notebook de Zeppelin
    • Zookeeper
  • yarn.nodemanager.recovery.enabled y el Registro de auditoría de HDFS están habilitados de forma predeterminada en las imágenes 2.3.

  • micromamba, en lugar de conda en versiones de imágenes anteriores, se instala como parte de la instalación de Python.

  • Las imágenes de 2.3.x-*-arm solo admiten los componentes preinstalados y los siguientes componentes opcionales. No se admiten los otros 2.3 componentes opcionales ni todas las acciones de inicialización:

  • Problemas de instalación de Docker y Zeppelin:

    • La instalación falla si el clúster no tiene acceso público a Internet. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados. Para ello, ejecuta generate_custom_image.py con la marca --optional-components.
    • La instalación puede fallar si el clúster está fijado en una versión secundaria anterior de la imagen: Los paquetes se instalan a pedido desde repositorios públicos de OSS, y es posible que un paquete no esté disponible de forma upstream para admitir la instalación. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados en la imagen personalizada. Para ello, ejecuta generate_custom_image.py con la marca --optional-components.

Componentes de aprendizaje automático (AA) de la versión 2.3 de la imagen

La imagen de Dataproc 2.3-ml-ubuntu extiende la imagen base 2.3 con software específico para AA. Admite componentes opcionales de imágenes 2.3 y otras funciones de 2.3, y agrega las versiones de componentes que se enumeran en las siguientes secciones.

Bibliotecas específicas de la GPU

Para los trabajos de Dataproc que usan VMs con GPU, las siguientes bibliotecas y el controlador de NVIDIA están disponibles en la imagen 2.3-ml-ubuntu. Puedes usarlos para realizar las siguientes tareas:

  • Acelera las cargas de trabajo por lotes de Spark con la biblioteca NVIDIA Spark Rapids
  • Entrena cargas de trabajo de aprendizaje automático
  • Ejecuta la inferencia por lotes distribuida con Spark
Nombre del paquete Versión
Spark Rapids 25.04.0
Controlador de NVIDIA Ubuntu 22.04 LTS acelerado con la versión 570 del controlador NVIDIA
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

Bibliotecas de XGBoost

Las siguientes versiones de paquetes de Maven están disponibles en la imagen 2.3-ml-ubuntu para que puedas usar XGBoost con Spark en Java o Scala.

ID del grupo Nombre del paquete Versión
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Bibliotecas de Python

La imagen 2.3-ml-ubuntu contiene las siguientes bibliotecas, que admiten diferentes etapas del ciclo de vida del AA.

Bibliotecas de Python de la imagen `2.3-ml-ubuntu`
Paquete Versión
acelerar1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask1/12/2023
conjuntos de datos3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet1/10/2023
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
koalas0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
notebook6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
papelera2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23.7
pytables3.9.2
python3.11
regex25/12/2023
solicitudes2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
con buena forma2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizadores0.21.4.dev0
toree0.5.0
linterna2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tornado6.4.2
torchvision0.21.0
traitlets5.14.3
transformadores4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
xgboost2.1.4

Bibliotecas de R

Las siguientes versiones de la biblioteca de R se incluyen en la imagen 2.3-ml-ubuntu.

Bibliotecas de R de la imagen "2.3-ml-ubuntu"
Nombre del paquete Versión
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1.98-1.16
r-recommended 4.3