Versiones de lanzamiento 2.3.x

Componente 2.3.11-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/08
2.3.10-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/29
2.3.9-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/19
2.3.8-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/12
2.3.7-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/07/25
Acción de inicialización de
Apache Atlas
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
componente opcional
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
instalado
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
instalado
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
componente opcional
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
componente opcional
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
componente opcional
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Apache Kafka
acción de inicialización
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
componente opcional
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
instalado
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Acción de inicialización de Apache Sqoop
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
instalado
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
Conector de BigQuery
instalado
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Conector de Cloud Storage
instalado
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
instalado
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
componente opcional
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
componente opcional
28,1 28,1 28,1 28,1 28,1
Acción de inicialización de
Hue
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
instalado
11 11 11 11 11
Cuaderno de JupyterLab
componente opcional
3.6 3.6 3.6 3.6 3.6
Oozie
de Oozie
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
instalado
micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11 micromamba 2.0.5 con Python 3.11
R
instalado
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
componente opcional
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
instalado
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
componente opcional
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
componente opcional
432 432 432 432 432
Zeppelin Notebook
componente opcional
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
componente opcional
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

Cambios importantes en la versión 2.3:

  • La versión 2.3 es una imagen ligera que solo contiene componentes principales, lo que reduce la exposición a vulnerabilidades y exposiciones comunes (CVEs). Para cumplir requisitos de seguridad más estrictos, usa la versión de imagen 2.3 o una posterior al crear un clúster de Dataproc.

  • Si decides instalar componentes opcionales al crear un clúster de Dataproc con la imagen 2.3, se descargarán e instalarán durante la creación del clúster. Esto podría aumentar el tiempo de inicio del clúster. Para evitar este retraso, puedes crear una imagen personalizada con los componentes opcionales preinstalados. Para ello, ejecuta generate_custom_image.py con la marca --optional-components.

Notas:

  • Estos son los componentes opcionales de las imágenes 2.3:

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • Cuaderno de JupyterLab
    • Ranger
    • Solr
    • Zeppelin Notebook
    • Zookeeper
  • yarn.nodemanager.recovery.enabled y el registro de auditoría de HDFS están habilitados de forma predeterminada en las imágenes 2.3.

  • micromamba, en lugar de conda en versiones anteriores de la imagen, se instala como parte de la instalación de Python.

  • Las imágenes 2.3.x-*-arm solo admiten los componentes preinstalados y los siguientes componentes opcionales. No se admiten los otros 2.3 componentes opcionales ni todas las acciones de inicialización:

  • Problemas de instalación de Docker y Zeppelin:

    • La instalación falla si el clúster no tiene acceso público a Internet. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados. Para ello, ejecuta generate_custom_image.py con la marca --optional-components.
    • La instalación puede fallar si el clúster está fijado en una versión secundaria anterior de la imagen: los paquetes se instalan bajo demanda desde repositorios OSS públicos y es posible que un paquete no esté disponible en el upstream para admitir la instalación. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados en la imagen personalizada. Para ello, ejecuta generate_custom_image.py con la marca --optional-components.

Componentes de aprendizaje automático de la versión 2.3 de la imagen

La imagen de Dataproc 2.3-ml-ubuntu amplía la imagen base 2.3 con software específico de aprendizaje automático. Es compatible con los componentes opcionales de la imagen 2.3 y otras funciones de la versión 2.3, y añade las versiones de los componentes que se indican en las siguientes secciones.

Bibliotecas específicas de la GPU

En las tareas de Dataproc que usan VMs con GPU, los siguientes controladores y bibliotecas de NVIDIA están disponibles en la imagen 2.3-ml-ubuntu. Puedes usarlas para llevar a cabo las siguientes tareas:

  • Acelerar las cargas de trabajo por lotes de Spark con la biblioteca NVIDIA Spark Rapids
  • Entrenar cargas de trabajo de aprendizaje automático
  • Ejecutar inferencias por lotes distribuidas con Spark
Nombre del paquete Versión
Spark Rapids 25.04.0
Controlador de NVIDIA Ubuntu 22.04 LTS acelerado con la versión 570 del controlador de NVIDIA
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

Bibliotecas XGBoost

Las siguientes versiones del paquete Maven están disponibles en la imagen 2.3-ml-ubuntu para que puedas usar XGBoost con Spark en Java o Scala.

ID de grupo Nombre del paquete Versión
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Bibliotecas de Python

La imagen 2.3-ml-ubuntu contiene las siguientes bibliotecas, que admiten diferentes fases del ciclo de vida del aprendizaje automático.

Bibliotecas de Python de la imagen `2.3-ml-ubuntu`
Paquete Versión
acelerar1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask1/12/2023
datasets3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet1/10/2023
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
koalas0.22.0
langchain0.3.26
lightgbm4.6.0
Markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
bloc de notas6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
fábrica de papel2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23,7
pytables3.9.2
Python3.11
regex25/12/2023
solicitudes2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit‑learn1.5.2
scipy1.11.4
marítimo0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
con curvas2.1.1
espacioso3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizadores0.21.4.dev0
toree0.5.0
torch2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tornado6.4.2
torchvision0.21.0
traitlets5.14.3
transformadores4.53.1
uritemplate4.1.1
virtualenv20.26.6
Nube de palabras1.9.4
xgboost2.1.4

Bibliotecas de R

Las siguientes versiones de la biblioteca R se incluyen en la imagen 2.3-ml-ubuntu.

Bibliotecas R de la imagen `2.3-ml-ubuntu`
Nombre del paquete Versión
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1,98-1,16
r-recommended 4.3