Versões de lançamento 2.3.x

Componente 2.3.13-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/15
2.3.11-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/09/08
2.3.10-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/29
2.3.9-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/19
2.3.8-debian12/
-ubuntu22/
-ubuntu22-arm/
-ml-ubuntu22/
-rocky9
2025/08/12
Ação de inicialização do Apache Atlas
2.2.0 2.2.0 2.2.0 2.2.0 2.2.0
Apache Flink
componente opcional
1.17.0 1.17.0 1.17.0 1.17.0 1.17.0
Apache Hadoop
instalado
3.3.6 3.3.6 3.3.6 3.3.6 3.3.6
Apache Hive
instalado
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hive WebHCat
componente opcional
3.1.3 3.1.3 3.1.3 3.1.3 3.1.3
Apache Hudi
componente opcional
0.15.0 0.15.0 0.15.0 0.15.0 0.15.0
Apache Iceberg
componente opcional
1.6.1 1.6.1 1.6.1 1.6.1 1.6.1
Ação de inicialização do Apache Kafka
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Apache Pig
componente opcional
0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT 0.18.0-SNAPSHOT
Apache Spark
instalado
3.5.3 3.5.3 3.5.3 3.5.3 3.5.3
Ação de inicialização do Apache Sqoop
1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT 1.5.0-SNAPSHOT
Apache Tez
instalado
0.10.2 0.10.2 0.10.2 0.10.2 0.10.2
Conector do BigQuery
instalado
0.42.3 0.42.3 0.42.3 0.42.3 0.42.3
Conector do Cloud Storage
instalado
3.1.0 3.1.0 3.1.0 3.1.0 3.1.0
Conscrypt
instalado
2.5.2 2.5.2 2.5.2 2.5.2 2.5.2
Delta Lake
componente opcional
3.2.0 3.2.0 3.2.0 3.2.0 3.2.0
Docker
componente opcional
28.1 28.1 28.1 28.1 28.1
Ação de inicialização do
Hue
4.11.0 4.11.0 4.11.0 4.11.0 4.11.0
Java
instalado
11 11 11 11 11
JupyterLab Notebook
componente opcional
3.6 3.6 3.6 3.6 3.6
Oozie
ação de inicialização
5.2.1 5.2.1 5.2.1 5.2.1 5.2.1
Python
instalado
micromamba 2.0.5 com Python 3.11 micromamba 2.0.5 com Python 3.11 micromamba 2.0.5 com Python 3.11 micromamba 2.0.5 com Python 3.11 micromamba 2.0.5 com Python 3.11
R
instalado
R 4.3 R 4.3 R 4.3 R 4.3 R 4.3
Ranger
componente opcional
2.4.0 2.4.0 2.4.0 2.4.0 2.4.0
Scala
instalado
2.12.18 2.12.18 2.12.18 2.12.18 2.12.18
Solr
componente opcional
9.4.1 9.4.1 9.4.1 9.4.1 9.4.1
Trino
componente opcional
432 432 432 432 432
Zeppelin Notebook
componente opcional
0.10.1 0.10.1 0.10.1 0.10.1 0.10.1
Zookeeper
componente opcional
3.9.3 3.9.3 3.9.3 3.9.3 3.9.3

Alterações importantes na versão 2.3:

  • A versão 2.3 é uma imagem simples que contém apenas componentes essenciais, o que reduz a exposição a vulnerabilidades e exposições comuns (CVEs). Para requisitos de conformidade de segurança mais elevados, use a versão da imagem 2.3ou posterior quando criar um cluster do Dataproc.

  • Se optar por instalar componentes opcionais quando criar um cluster do Dataproc com a imagem 2.3, estes são transferidos e instalados durante a criação do cluster. Isto pode aumentar o tempo de arranque do cluster. Para evitar este atraso, pode criar uma imagem personalizada com os componentes opcionais pré-instalados. Isto é conseguido executando generate_custom_image.py com a flag --optional-components.

Notas:

  • Seguem-se os componentes opcionais em imagens 2.3:

    • Apache Flink
    • Apache Hive WebHCat
    • Apache Hudi
    • Apache Iceberg
    • Apache Pig
    • Delta Lake
    • Docker
    • JupyterLab Notebook
    • Ranger
    • Solr
    • Zeppelin Notebook
    • Zelador de jardim zoológico
  • yarn.nodemanager.recovery.enabled e o registo de auditoria do HDFS estão ativados por predefinição nas imagens 2.3.

  • O micromamba, em vez do conda nas versões de imagem anteriores, é instalado como parte da instalação do Python.

  • As imagens 2.3.x-*-arm só suportam os componentes pré-instalados e os seguintes componentes opcionais. Os outros 2,3 componentes opcionais e todas as ações de inicialização não são suportados:

  • Problemas de instalação do Docker e do Zeppelin:

    • A instalação falha se o cluster não tiver acesso à Internet pública. Como solução alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Pode fazê-lo executando o comando generate_custom_image.py com a flag --optional-components.
    • A instalação pode falhar se o cluster estiver fixado a uma versão de imagem secundária inferior mais antiga: os pacotes são instalados a pedido a partir de repositórios OSS públicos, e um pacote pode não estar disponível a montante para suportar a instalação. Como solução alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados na imagem personalizada. Para o fazer, execute generate_custom_image.py com a flag --optional-components.

Componentes de aprendizagem automática (AA) da versão 2.3 de imagens

A imagem do Dataproc 2.3-ml-ubuntu estende a imagem de base 2.3 com software específico de ML. Suporta componentes opcionais de imagens 2.3 e outras funcionalidades 2.3, e adiciona as versões de componentes indicadas nas secções seguintes.

Bibliotecas específicas da GPU

Para tarefas do Dataproc que usam VMs de GPU, o seguinte controlador e bibliotecas da NVIDIA estão disponíveis na imagem 2.3-ml-ubuntu. Pode usá-las para realizar as seguintes tarefas:

  • Acelere as cargas de trabalho em lote do Spark com a biblioteca NVIDIA Spark Rapids
  • Forme cargas de trabalho de aprendizagem automática
  • Execute a inferência em lote distribuída através do Spark
Nome do Pacote Versão
Spark Rapids 25.04.0
Controlador NVIDIA Ubuntu 22.04 LTS acelerado com a versão 570 do controlador NVIDIA
CUDA 12.6.3
cublas 12.6.4
cusolver 11.7.1
cupti 12.6.80
cusparse 12.5.4
cuDNN 9.10.1
NCCL 2.27.5

Bibliotecas XGBoost

As seguintes versões do pacote Maven estão disponíveis na imagem 2.3-ml-ubuntu para lhe permitir usar o XGBoost com o Spark em Java ou Scala.

ID do grupo Nome do Pacote Versão
ml.dmlc xgboost4j-gpu_2.12 2.1.1
ml.dmlc xgboost4j-spark-gpu_2.12 2.1.1

Bibliotecas Python

A imagem 2.3-ml-ubuntu contém as seguintes bibliotecas, que suportam diferentes fases no ciclo de vida da aprendizagem automática.

Bibliotecas Python da imagem `2.3-ml-ubuntu`
Pacote Versão
acelerar1.8.1
conda23.11.0
cortador de biscoitos2.5.0
curl8.12.1
cython3.0.12
dask2023.12.1
conjuntos de dados3.6.0
deepspeed0.17.2
delta-spark3.2.0
avaliar0.4.5
fastavro1.9.7
fastparquet01/10/2023
fiona1.10.0
gateway-provisioners[yarn]0.4.0
gcsfs2023.12.2.post1
google-auth-oauthlib1.2.2
google-cloud-aiplatform1.88.0
google-cloud-bigquery[pandas]3.31.0
google-cloud-bigquery-storage2.30.0
google-cloud-bigtable2.30.1
google-cloud-container2.56.1
google-cloud-datacatalog3.26.1
google-cloud-dataproc5.18.1
google-cloud-datastore2.21.0
google-cloud-language2.17.2
google-cloud-logging3.11.4
google-cloud-monitoring2.27.2
google-cloud-pubsub2.29.1
google-cloud-redis2.18.1
google-cloud-spanner3.53.0
google-cloud-speech2.32.0
google-cloud-storage2.19.0
google-cloud-texttospeech2.25.1
google-cloud-translate3.20.3
google-cloud-vision3.10.2
huggingface_hub0.33.1
httplib20.22.0
ipyparallel8.6.1
ipython-sql0.3.9
ipywidgets8.1.7
jupyter_contrib_nbextensions0.7.0
jupyter_http_over_ws0.0.8
jupyter_kernel_gateway2.5.2
jupyter_server1.24.0
jupyterhub4.1.6
jupyterlab3.6.8
jupyterlab-git0.44.0
jupyterlab_widgets3.0.15
coalas0.22.0
langchain0.3.26
lightgbm4.6.0
markdown3.5.2
matplotlib3.8.4
mlflow3.1.1
nbconvert7.14.2
nbdime3.2.1
nltk3.9.1
bloco de notas6.5.7
numba0.58.1
numpy1.26.4
oauth2client4.1.3
onnx1.17.0
openblas0.3.25
opencv4.11.0
orc2.1.1
pandas2.1.4
pandas-profiling3.0.0
fábrica de papel2.4.0
pyarrow16.1.0
pydot2.0.0
pyhive0.7.0
pynvml12.0.0
pysal23,7
pytables3.9.2
python3.11
regex25/12/2023
pedidos2.32.2
requests-kerberos0.12.0
rtree1.1.0
scikit-image0.22.0
scikit-learn1.5.2
scipy1.11.4
seaborn0.13.2
sentence-transformers5.0.0
setuptools79.0.1
shap0.48.0
shapely2.1.1
spacy3.8.7
spark-tensorflow-distributor1.0.0
spyder5.5.6
sqlalchemy2.0.41
sympy1.13.3
tensorflow2.18.0
analisadores de tokens0.21.4.dev0
toree0.5.0
lanterna2.6.0
torch-model-archiver0.11.1
torcheval0.0.7
tornado6.4.2
torchvision0.21.0
traitlets5.14.3
transformadores4.53.1
uritemplate4.1.1
virtualenv20.26.6
wordcloud1.9.4
xgboost2.1.4

Bibliotecas R

As seguintes versões da biblioteca R estão incluídas na imagem 2.3-ml-ubuntu.

Bibliotecas R da imagem `2.3-ml-ubuntu`
Nome do Pacote Versão
r-ggplot2 3.4.4
r-irkernel 1.3.2
r-rcurl 1,98-1,16
r-recommended 4,3