Versões de lançamento 2.3.x

Componente 2.3.13-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/15
2.3.11-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/08
2.3.10-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/29
2.3.9-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
19/08/2025
2.3.8-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
12/08/2025
Apache Atlas
ação de inicialização
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
componente opcional
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
instalado
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
instalado
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
componente opcional
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
componente opcional
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
componente opcional
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Apache Kafka
ação de inicialização
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
componente opcional
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
instalado
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Apache Sqoop
ação de inicialização
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
instalado
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
Conector do BigQuery
instalado
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Cloud Storage Connector
instalado
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
instalado
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
componente opcional
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
componente opcional
28.1 28.1 28.1 28.1 28.1
Hue
ação de inicialização
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
instalado
11 11 11 11 11
Notebook JupyterLab
componente opcional
3.6 3.6 3.6 3.6 3.6
Oozie
ação de inicialização
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
instalado
micromamba 2.0.5 com Python 3.11 micromamba 2.0.5 com Python 3.11 micromamba 2.0.5 com Python 3.11 micromamba 2.0.5 com Python 3.11 micromamba 2.0.5 com Python 3.11
R
instalado
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
componente opcional
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
instalado
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
componente opcional
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
componente opcional
432 432 432 432 432
Notebook Zeppelin
componente opcional
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
componente opcional
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

Mudanças importantes na versão 2.3:

  • A versão 2.3 é uma imagem leve que contém apenas componentes principais, reduzindo a exposição a vulnerabilidades e exposições comuns (CVEs). Para requisitos de compliance de segurança mais altos, use a versão 2.3 ou mais recente da imagem ao criar um cluster do Dataproc.

  • Se você optar por instalar componentes opcionais ao criar um cluster do Dataproc com a imagem 2.3, eles serão baixados e instalados durante a criação do cluster. Isso pode aumentar o tempo de inicialização do cluster. Para evitar esse atraso, crie uma imagem personalizada com os componentes opcionais pré-instalados. Para isso, execute generate_custom_image.py com a flag --optional-components.

Observações:

  • Estes são os componentes opcionais nas imagens 2.3:

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • Notebook do JupyterLab
    • Ranger
    • Solr
    • Zeppelin Notebook
    • Zookeeper
  • O yarn.nodemanager.recovery.enabled e o HDFS Audit Logging são ativados por padrão nas imagens 2.3.

  • O micromamba, em vez do conda nas versões de imagem anteriores, é instalado como parte da instalação do Python.

  • As imagens 2.3.x-*-arm são compatíveis apenas com os componentes pré-instalados e os seguintes componentes opcionais. Os outros 2,3 componentes opcionais e todas as ações de inicialização não são compatíveis:

  • Problemas de instalação do Docker e do Zeppelin:

    • A instalação falha se o cluster não tiver acesso público à Internet. Como solução alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Para isso, execute generate_custom_image.py com a flag --optional-components.
    • A instalação pode falhar se o cluster estiver fixado em uma versão mais antiga de imagem subalterna. Os pacotes são instalados sob demanda de repositórios OSS públicos, e um pacote pode não estar disponível upstream para oferecer suporte à instalação. Como alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Para fazer isso, execute generate_custom_image.py com a flag --optional-components.

Componentes de machine learning (ML) da versão 2.3 da imagem

A imagem do Dataproc 2.3-ml-ubuntu estende a imagem de base 2.3 com software específico de ML. Ele oferece suporte a componentes opcionais de imagem 2.3 e outros recursos 2.3, além de adicionar as versões de componentes listadas nas seções a seguir.

Bibliotecas específicas da GPU

Para jobs do Dataproc que usam VMs com GPU, o seguinte driver e bibliotecas da NVIDIA estão disponíveis na imagem 2.3-ml-ubuntu. Você pode usá-los para realizar as seguintes tarefas:

  • Acelere as cargas de trabalho em lote do Spark com a biblioteca NVIDIA Spark Rapids
  • Treinar cargas de trabalho de machine learning
  • Executar inferência em lote distribuída usando o Spark
Nome do pacote Versão
Spark Rapids 25.04.0
Driver NVIDIA Ubuntu 22.04 LTS acelerado com a versão 570 do driver NVIDIA
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

Bibliotecas XGBoost

As seguintes versões de pacotes do Maven estão disponíveis na imagem 2.3-ml-ubuntu para que você possa usar o XGBoost com o Spark em Java ou Scala.

ID do grupo Nome do pacote Versão
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Bibliotecas do Python

A imagem 2.3-ml-ubuntu contém as seguintes bibliotecas, que oferecem suporte a diferentes estágios no ciclo de vida do ML.

Bibliotecas Python da imagem `2.3-ml-ubuntu`
Pacote Versão
acelerar1.8.1
conda23.11.0
cookiecutter2.5.0
curl8.12.1
cython3.0.12
dask2023.12.1
conjuntos de dados3.6.0
deepspeed0.17.2
delta-spark3.2.0
evaluate0.4.5
fastavro1.9.7
fastparquet2023.10.1
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
coala0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
notebook6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
fábrica de papel2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23,7
pytables3.9.2
python3.11
Regex25/12/2023
solicitações2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
bem torneada2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
tokenizadores0.21.4.dev0
toree0.5.0
lanterna2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tornado6.4.2
torchvision0.21.0
traitlets5.14.3
transformadores4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
XGBoost2.1.4

Bibliotecas R

As seguintes versões da biblioteca R estão incluídas na imagem 2.3-ml-ubuntu.

Bibliotecas R de imagem `2.3-ml-ubuntu`
Nome do pacote Versão
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1.98-1.16
r-recommended 4.3