Cambios importantes en la versión 2.3:
La versión
2.3
es una imagen ligera que solo contiene componentes principales, lo que reduce la exposición a vulnerabilidades y exposiciones comunes (CVEs). Para cumplir requisitos de seguridad más estrictos, usa la versión de imagen2.3
o una posterior al crear un clúster de Dataproc.Si decides instalar componentes opcionales al crear un clúster de Dataproc con la imagen
2.3
, se descargarán e instalarán durante la creación del clúster. Esto podría aumentar el tiempo de inicio del clúster. Para evitar este retraso, puedes crear una imagen personalizada con los componentes opcionales preinstalados. Para ello, ejecutagenerate_custom_image.py
con la marca--optional-components
.
Notas:
Estos son los componentes opcionales de las imágenes 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- Cuaderno de JupyterLab
- Ranger
- Solr
- Zeppelin Notebook
- Zookeeper
yarn.nodemanager.recovery.enabled
y el registro de auditoría de HDFS están habilitados de forma predeterminada en las imágenes 2.3.micromamba, en lugar de conda en versiones anteriores de la imagen, se instala como parte de la instalación de Python.
Las imágenes
2.3.x-*-arm
solo admiten los componentes preinstalados y los siguientes componentes opcionales. No se admiten los otros 2.3 componentes opcionales ni todas las acciones de inicialización:- Apache Hive WebHCat
- Docker
- Zeppelin
- Zookeeper (instalado en clústeres de alta disponibilidad; componente opcional en otros clústeres)
Problemas de instalación de Docker y Zeppelin:
- La instalación falla si el clúster no tiene acceso público a Internet. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados. Para ello, ejecuta
generate_custom_image.py
con la marca--optional-components
. - La instalación puede fallar si el clúster está fijado en una versión secundaria anterior de la imagen: los paquetes se instalan bajo demanda desde repositorios OSS públicos y es posible que un paquete no esté disponible en el upstream para admitir la instalación.
Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados en la imagen personalizada. Para ello, ejecuta
generate_custom_image.py
con la marca--optional-components
.
- La instalación falla si el clúster no tiene acceso público a Internet. Como solución alternativa, crea un clúster que use una imagen personalizada con componentes opcionales preinstalados. Para ello, ejecuta
Componentes de aprendizaje automático de la versión 2.3 de la imagen
La imagen de Dataproc 2.3-ml-ubuntu
amplía la imagen base 2.3
con software específico de aprendizaje automático. Es compatible con los componentes opcionales de la imagen 2.3 y otras funciones de la versión 2.3, y añade las versiones de los componentes que se indican en las siguientes secciones.
Bibliotecas específicas de la GPU
En las tareas de Dataproc que usan VMs con GPU, los siguientes controladores y bibliotecas de NVIDIA están disponibles en la imagen 2.3-ml-ubuntu
. Puedes usarlas para llevar a cabo las siguientes tareas:
- Acelerar las cargas de trabajo por lotes de Spark con la biblioteca NVIDIA Spark Rapids
- Entrenar cargas de trabajo de aprendizaje automático
- Ejecutar inferencias por lotes distribuidas con Spark
Nombre del paquete | Versión |
---|---|
Spark Rapids | 25.04.0 |
Controlador de NVIDIA | Ubuntu 22.04 LTS acelerado con la versión 570 del controlador de NVIDIA |
CUDA | 12.6.3 |
cublas | 12.6.4 |
cusolver | 11.7.1 |
cupti | 12.6.80 |
cusparse | 12.5.4 |
cuDNN | 9.10.1 |
NCCL | 2.27.5 |
Bibliotecas XGBoost
Las siguientes versiones del paquete Maven están disponibles en la imagen 2.3-ml-ubuntu
para que puedas usar XGBoost con Spark en Java o Scala.
ID de grupo | Nombre del paquete | Versión |
---|---|---|
ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Bibliotecas de Python
La imagen 2.3-ml-ubuntu
contiene las siguientes bibliotecas, que admiten diferentes fases del ciclo de vida del aprendizaje automático.
Paquete | Versión |
---|---|
acelerar | 1.8.1 |
conda | 23.11.0 |
cookiecutter | 2.5.0 |
curl | 8.12.1 |
cython | 3.0.12 |
dask | 1/12/2023 |
datasets | 3.6.0 |
deepspeed | 0.17.2 |
delta-spark | 3.2.0 |
evaluate | 0.4.5 |
fastavro | 1.9.7 |
fastparquet | 1/10/2023 |
fiona | 1.10.0 |
gateway-provisioners[yarn] | 0.4.0 |
gcsfs | 2023.12.2.post1 |
google-auth-oauthlib | 1.2.2 |
google-cloud-aiplatform | 1.88.0 |
google-cloud-bigquery[pandas] | 3.31.0 |
google-cloud-bigquery-storage | 2.30.0 |
google-cloud-bigtable | 2.30.1 |
google-cloud-container | 2.56.1 |
google-cloud-datacatalog | 3.26.1 |
google-cloud-dataproc | 5.18.1 |
google-cloud-datastore | 2.21.0 |
google-cloud-language | 2.17.2 |
google-cloud-logging | 3.11.4 |
google-cloud-monitoring | 2.27.2 |
google-cloud-pubsub | 2.29.1 |
google-cloud-redis | 2.18.1 |
google-cloud-spanner | 3.53.0 |
google-cloud-speech | 2.32.0 |
google-cloud-storage | 2.19.0 |
google-cloud-texttospeech | 2.25.1 |
google-cloud-translate | 3.20.3 |
google-cloud-vision | 3.10.2 |
huggingface_hub | 0.33.1 |
httplib2 | 0.22.0 |
ipyparallel | 8.6.1 |
ipython-sql | 0.3.9 |
ipywidgets | 8.1.7 |
jupyter_contrib_nbextensions | 0.7.0 |
jupyter_http_over_ws | 0.0.8 |
jupyter_kernel_gateway | 2.5.2 |
jupyter_server | 1.24.0 |
jupyterhub | 4.1.6 |
jupyterlab | 3.6.8 |
jupyterlab-git | 0.44.0 |
jupyterlab_widgets | 3.0.15 |
koalas | 0.22.0 |
langchain | 0.3.26 |
lightgbm | 4.6.0 |
Markdown | 3.5.2 |
matplotlib | 3.8.4 |
mlflow | 3.1.1 |
nbconvert | 7.14.2 |
nbdime | 3.2.1 |
nltk | 3.9.1 |
bloc de notas | 6.5.7 |
numba | 0.58.1 |
numpy | 1.26.4 |
oauth2client | 4.1.3 |
onnx | 1.17.0 |
openblas | 0.3.25 |
opencv | 4.11.0 |
orc | 2.1.1 |
pandas | 2.1.4 |
pandas-profiling | 3.0.0 |
fábrica de papel | 2.4.0 |
pyarrow | 16.1.0 |
pydot | 2.0.0 |
pyhive | 0.7.0 |
pynvml | 12.0.0 |
pysal | 23,7 |
pytables | 3.9.2 |
Python | 3.11 |
regex | 25/12/2023 |
solicitudes | 2.32.2 |
requests-kerberos | 0.12.0 |
rtree | 1.1.0 |
scikit-image | 0.22.0 |
scikit‑learn | 1.5.2 |
scipy | 1.11.4 |
marítimo | 0.13.2 |
sentence-transformers | 5.0.0 |
setuptools | 79.0.1 |
shap | 0.48.0 |
con curvas | 2.1.1 |
espacioso | 3.8.7 |
spark-tensorflow-distributor | 1.0.0 |
spyder | 5.5.6 |
sqlalchemy | 2.0.41 |
sympy | 1.13.3 |
tensorflow | 2.18.0 |
tokenizadores | 0.21.4.dev0 |
toree | 0.5.0 |
torch | 2.6.0 |
torch-model-archiver | 0.11.1 |
torcheval | 0.0.7 |
tornado | 6.4.2 |
torchvision | 0.21.0 |
traitlets | 5.14.3 |
transformadores | 4.53.1 |
uritemplate | 4.1.1 |
virtualenv | 20.26.6 |
Nube de palabras | 1.9.4 |
xgboost | 2.1.4 |
Bibliotecas de R
Las siguientes versiones de la biblioteca R se incluyen en la imagen 2.3-ml-ubuntu
.
Nombre del paquete | Versión |
---|---|
r-ggplot2 | 3.4.4 |
r-irkernel | 1.3.2 |
r-rcurl | 1,98-1,16 |
r-recommended | 4.3 |