Cambios importantes en la versión 2.3:
La versión
2.3
es una imagen ligera que contiene solo componentes principales, lo que reduce la exposición a vulnerabilidades y exposiciones comunes (CVE). Para cumplir con requisitos de seguridad más estrictos, usa la versión de imagen2.3
o posterior cuando crees un clúster de Dataproc.Si eliges instalar componentes opcionales cuando crees un clúster de Dataproc con la imagen
2.3
, se descargarán y se instalarán durante la creación del clúster. Esto podría aumentar el tiempo de inicio del clúster. Para evitar esta demora, puedes crear una imagen personalizada con los componentes opcionales preinstalados. Esto se logra ejecutandogenerate_custom_image.py
con la marca--optional-components
.
Notas:
Los siguientes son los componentes opcionales en las imágenes 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- Notebook de JupyterLab
- Ranger
- Solr
- Notebook de Zeppelin
- Zookeeper
yarn.nodemanager.recovery.enabled
y el Registro de auditoría de HDFS están habilitados de forma predeterminada en las imágenes 2.3.micromamba, en lugar de conda en versiones de imágenes anteriores, se instala como parte de la instalación de Python.
Las imágenes de
2.3.x-*-arm
solo admiten los componentes preinstalados y los siguientes componentes opcionales. No se admiten los otros 2.3 componentes opcionales ni todas las acciones de inicialización:- Apache Hive WebHCat
- Docker
- Zeppelin
- Zookeeper (se instala en clústeres de alta disponibilidad; componente opcional en otros clústeres)
Problemas de instalación de Docker y Zeppelin:
- La instalación falla si el clúster no tiene acceso público a Internet. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados. Para ello, ejecuta
generate_custom_image.py
con la marca--optional-components
. - La instalación puede fallar si el clúster está fijado en una versión secundaria anterior de la imagen: Los paquetes se instalan a pedido desde repositorios públicos de OSS, y es posible que un paquete no esté disponible de forma upstream para admitir la instalación.
Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados en la imagen personalizada. Para ello, ejecuta
generate_custom_image.py
con la marca--optional-components
.
- La instalación falla si el clúster no tiene acceso público a Internet. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados. Para ello, ejecuta
Componentes de aprendizaje automático (AA) de la versión 2.3 de la imagen
La imagen de Dataproc 2.3-ml-ubuntu
extiende la imagen base 2.3 con software específico para AA. Admite componentes opcionales de imágenes 2.3 y otras funciones de 2.3, y agrega las versiones de componentes que se enumeran en las siguientes secciones.
Bibliotecas específicas de la GPU
Para los trabajos de Dataproc que usan VMs con GPU, las siguientes bibliotecas y el controlador de NVIDIA están disponibles en la imagen 2.3-ml-ubuntu
. Puedes usarlos para realizar las siguientes tareas:
- Acelera las cargas de trabajo por lotes de Spark con la biblioteca NVIDIA Spark Rapids
- Entrena cargas de trabajo de aprendizaje automático
- Ejecuta la inferencia por lotes distribuida con Spark
Nombre del paquete | Versión |
---|---|
Spark Rapids | 25.04.0 |
Controlador de NVIDIA | Ubuntu 22.04 LTS acelerado con la versión 570 del controlador NVIDIA |
CUDA | 12.6.3 |
cublas | 12.6.4 |
cusolver | 11.7.1 |
cupti | 12.6.80 |
cusparse | 12.5.4 |
cuDNN | 9.10.1 |
NCCL | 2.27.5 |
Bibliotecas de XGBoost
Las siguientes versiones de paquetes de Maven están disponibles en la imagen 2.3-ml-ubuntu
para que puedas usar XGBoost con Spark en Java o Scala.
ID del grupo | Nombre del paquete | Versión |
---|---|---|
ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Bibliotecas de Python
La imagen 2.3-ml-ubuntu
contiene las siguientes bibliotecas, que admiten diferentes etapas del ciclo de vida del AA.
Paquete | Versión |
---|---|
acelerar | 1.8.1 |
conda | 23.11.0 |
cookiecutter | 2.5.0 |
curl | 8.12.1 |
cython | 3.0.12 |
dask | 1/12/2023 |
conjuntos de datos | 3.6.0 |
deepspeed | 0.17.2 |
delta-spark | 3.2.0 |
evaluate | 0.4.5 |
fastavro | 1.9.7 |
fastparquet | 1/10/2023 |
fiona | 1.10.0 |
gateway-provisioners[yarn] | 0.4.0 |
gcsfs | 2023.12.2.post1 |
google-auth-oauthlib | 1.2.2 |
google-cloud-aiplatform | 1.88.0 |
google-cloud-bigquery[pandas] | 3.31.0 |
google-cloud-bigquery-storage | 2.30.0 |
google-cloud-bigtable | 2.30.1 |
google-cloud-container | 2.56.1 |
google-cloud-datacatalog | 3.26.1 |
google-cloud-dataproc | 5.18.1 |
google-cloud-datastore | 2.21.0 |
google-cloud-language | 2.17.2 |
google-cloud-logging | 3.11.4 |
google-cloud-monitoring | 2.27.2 |
google-cloud-pubsub | 2.29.1 |
google-cloud-redis | 2.18.1 |
google-cloud-spanner | 3.53.0 |
google-cloud-speech | 2.32.0 |
google-cloud-storage | 2.19.0 |
google-cloud-texttospeech | 2.25.1 |
google-cloud-translate | 3.20.3 |
google-cloud-vision | 3.10.2 |
huggingface_hub | 0.33.1 |
httplib2 | 0.22.0 |
ipyparallel | 8.6.1 |
ipython-sql | 0.3.9 |
ipywidgets | 8.1.7 |
jupyter_contrib_nbextensions | 0.7.0 |
jupyter_http_over_ws | 0.0.8 |
jupyter_kernel_gateway | 2.5.2 |
jupyter_server | 1.24.0 |
jupyterhub | 4.1.6 |
jupyterlab | 3.6.8 |
jupyterlab-git | 0.44.0 |
jupyterlab_widgets | 3.0.15 |
koalas | 0.22.0 |
langchain | 0.3.26 |
lightgbm | 4.6.0 |
markdown | 3.5.2 |
matplotlib | 3.8.4 |
mlflow | 3.1.1 |
nbconvert | 7.14.2 |
nbdime | 3.2.1 |
nltk | 3.9.1 |
notebook | 6.5.7 |
numba | 0.58.1 |
numpy | 1.26.4 |
oauth2client | 4.1.3 |
onnx | 1.17.0 |
openblas | 0.3.25 |
opencv | 4.11.0 |
orc | 2.1.1 |
pandas | 2.1.4 |
pandas-profiling | 3.0.0 |
papelera | 2.4.0 |
pyarrow | 16.1.0 |
pydot | 2.0.0 |
pyhive | 0.7.0 |
pynvml | 12.0.0 |
pysal | 23.7 |
pytables | 3.9.2 |
python | 3.11 |
regex | 25/12/2023 |
solicitudes | 2.32.2 |
requests-kerberos | 0.12.0 |
rtree | 1.1.0 |
scikit-image | 0.22.0 |
scikit-learn | 1.5.2 |
scipy | 1.11.4 |
seaborn | 0.13.2 |
sentence-transformers | 5.0.0 |
setuptools | 79.0.1 |
shap | 0.48.0 |
con buena forma | 2.1.1 |
spacy | 3.8.7 |
spark-tensorflow-distributor | 1.0.0 |
spyder | 5.5.6 |
sqlalchemy | 2.0.41 |
sympy | 1.13.3 |
tensorflow | 2.18.0 |
tokenizadores | 0.21.4.dev0 |
toree | 0.5.0 |
linterna | 2.6.0 |
torch-model-archiver | 0.11.1 |
torcheval | 0.0.7 |
tornado | 6.4.2 |
torchvision | 0.21.0 |
traitlets | 5.14.3 |
transformadores | 4.53.1 |
uritemplate | 4.1.1 |
virtualenv | 20.26.6 |
wordcloud | 1.9.4 |
xgboost | 2.1.4 |
Bibliotecas de R
Las siguientes versiones de la biblioteca de R se incluyen en la imagen 2.3-ml-ubuntu
.
Nombre del paquete | Versión |
---|---|
r-ggplot2 | 3.4.4 |
r-irkernel | 1.3.2 |
r-rcurl | 1.98-1.16 |
r-recommended | 4.3 |