Modifiche importanti nella versione 2.3:
La versione
2.3
è un'immagine leggera che contiene solo i componenti principali, riducendo l'esposizione alle vulnerabilità ed esposizioni comuni (CVE). Per requisiti di conformità alla sicurezza più elevati, utilizza la versione dell'immagine2.3
o successive quando crei un cluster Dataproc.Se scegli di installare componenti facoltativi quando crei un cluster Dataproc con l'immagine
2.3
, questi verranno scaricati e installati durante la creazione del cluster. Ciò potrebbe aumentare il tempo di avvio del cluster. Per evitare questo ritardo, puoi creare un'immagine personalizzata con i componenti facoltativi preinstallati. Ciò si ottiene eseguendogenerate_custom_image.py
con il flag--optional-components
.
Note:
Di seguito sono riportati i componenti facoltativi nelle immagini 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- Blocco note JupyterLab
- Ranger
- Solr
- Zeppelin Notebook
- Zookeeper
yarn.nodemanager.recovery.enabled
e l'audit logging HDFS sono abilitati per impostazione predefinita nelle immagini 2.3.micromamba, anziché conda nelle versioni precedenti dell'immagine, viene installato come parte dell'installazione di Python.
Le immagini
2.3.x-*-arm
supportano solo i componenti preinstallati e i seguenti componenti opzionali. Gli altri due componenti facoltativi 2.3 e tutte le azioni di inizializzazione non sono supportati:- Apache Hive WebHCat
- Docker
- Zeppelin
- Zookeeper (installato in cluster ad alta disponibilità; componente facoltativo in altri cluster)
Problemi di installazione di Docker e Zeppelin:
- L'installazione non va a buon fine se il cluster non ha accesso a internet pubblico. Come
soluzione alternativa, crea un cluster che utilizzi un'immagine personalizzata con componenti
facoltativi preinstallati. Per farlo, esegui
generate_custom_image.py
con il flag--optional-components
. - L'installazione può non riuscire se il cluster è bloccato su una versione secondaria precedente dell'immagine: i pacchetti vengono installati su richiesta dai repository OSS pubblici e un pacchetto potrebbe non essere disponibile upstream per supportare l'installazione.
Come soluzione alternativa, crea un cluster che utilizzi un'immagine personalizzata con componenti
facoltativi preinstallati nell'immagine personalizzata. Per farlo, esegui
generate_custom_image.py
con il flag--optional-components
.
- L'installazione non va a buon fine se il cluster non ha accesso a internet pubblico. Come
soluzione alternativa, crea un cluster che utilizzi un'immagine personalizzata con componenti
facoltativi preinstallati. Per farlo, esegui
Componenti di machine learning (ML) della versione 2.3 dell'immagine
L'immagine Dataproc 2.3-ml-ubuntu
estende l'immagine di base 2.3
con software specifico per l'ML. Supporta i componenti opzionali delle immagini 2.3 e altre
funzionalità 2.3 e aggiunge le versioni dei componenti elencate nelle sezioni seguenti.
Librerie specifiche per la GPU
Per i job Dataproc che utilizzano VM GPU, nell'immagine 2.3-ml-ubuntu
sono disponibili i seguenti driver e librerie NVIDIA. Puoi utilizzarli per svolgere le seguenti attività:
- Accelera i carichi di lavoro batch Spark con la libreria NVIDIA Spark Rapids
- Addestrare carichi di lavoro di machine learning
- Esegui l'inferenza batch distribuita utilizzando Spark
Nome pacchetto | Versione |
---|---|
Spark Rapids | 25.04.0 |
Driver NVIDIA | Ubuntu 22.04 LTS Accelerated con il driver NVIDIA versione 570 |
CUDA | 12.6.3 |
cublas | 12.6.4 |
cusolver | 11.7.1 |
cupti | 12.6.80 |
cusparse | 12.5.4 |
cuDNN | 9.10.1 |
NCCL | 2.27.5 |
Librerie XGBoost
Le seguenti versioni del pacchetto Maven
sono disponibili nell'immagine 2.3-ml-ubuntu
per consentirti di utilizzare
XGBoost con Spark in Java o
Scala.
ID gruppo | Nome pacchetto | Versione |
---|---|---|
ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Librerie Python
L'immagine 2.3-ml-ubuntu
contiene le seguenti librerie, che supportano diverse fasi del ciclo di vita del machine learning.
Pacchetto | Versione |
---|---|
accelerare | 1.8.1 |
conda | 23.11.0 |
cookiecutter | 2.5.0 |
curl | 8.12.1 |
cython | 3.0.12 |
dask | 1/12/2023 |
set di dati | 3.6.0 |
deepspeed | 0.17.2 |
delta-spark | 3.2.0 |
evaluate | 0.4.5 |
fastavro | 1.9.7 |
fastparquet | 1/10/2023 |
fiona | 1.10.0 |
gateway-provisioners[yarn] | 0.4.0 |
gcsfs | 2023.12.2.post1 |
google-auth-oauthlib | 1.2.2 |
google-cloud-aiplatform | 1.88.0 |
google-cloud-bigquery[pandas] | 3.31.0 |
google-cloud-bigquery-storage | 2.30.0 |
google-cloud-bigtable | 2.30.1 |
google-cloud-container | 2.56.1 |
google-cloud-datacatalog | 3.26.1 |
google-cloud-dataproc | 5.18.1 |
google-cloud-datastore | 2.21.0 |
google-cloud-language | 2.17.2 |
google-cloud-logging | 3.11.4 |
google-cloud-monitoring | 2.27.2 |
google-cloud-pubsub | 2.29.1 |
google-cloud-redis | 2.18.1 |
google-cloud-spanner | 3.53.0 |
google-cloud-speech | 2.32.0 |
google-cloud-storage | 2.19.0 |
google-cloud-texttospeech | 2.25.1 |
google-cloud-translate | 3.20.3 |
google-cloud-vision | 3.10.2 |
huggingface_hub | 0.33.1 |
httplib2 | 0.22.0 |
ipyparallel | 8.6.1 |
ipython-sql | 0.3.9 |
ipywidgets | 8.1.7 |
jupyter_contrib_nbextensions | 0.7.0 |
jupyter_http_over_ws | 0.0.8 |
jupyter_kernel_gateway | 2.5.2 |
jupyter_server | 1.24.0 |
jupyterhub | 4.1.6 |
jupyterlab | 3.6.8 |
jupyterlab-git | 0.44.0 |
jupyterlab_widgets | 3.0.15 |
koala | 0.22.0 |
langchain | 0.3.26 |
lightgbm | 4.6.0 |
markdown | 3.5.2 |
matplotlib | 3.8.4 |
mlflow | 3.1.1 |
nbconvert | 7.14.2 |
nbdime | 3.2.1 |
nltk | 3.9.1 |
notebook | 6.5.7 |
numba | 0.58.1 |
numpy | 1.26.4 |
oauth2client | 4.1.3 |
onnx | 1.17.0 |
openblas | 0.3.25 |
opencv | 4.11.0 |
orc | 2.1.1 |
panda | 2.1.4 |
pandas-profiling | 3.0.0 |
cartiera | 2.4.0 |
pyarrow | 16.1.0 |
pydot | 2.0.0 |
pyhive | 0.7.0 |
pynvml | 12.0.0 |
pysal | 23.7 |
pytables | 3.9.2 |
python | 3.11 |
regex | 25/12/2023 |
richieste | 2.32.2 |
requests-kerberos | 0.12.0 |
rtree | 1.1.0 |
scikit-image | 0.22.0 |
scikit-learn | 1.5.2 |
scipy | 1.11.4 |
seaborn | 0.13.2 |
sentence-transformers | 5.0.0 |
setuptools | 79.0.1 |
shap | 0.48.0 |
formoso | 2.1.1 |
spacy | 3.8.7 |
spark-tensorflow-distributor | 1.0.0 |
spyder | 5.5.6 |
sqlalchemy | 2.0.41 |
sympy | 1.13.3 |
tensorflow | 2.18.0 |
tokenizzatori | 0.21.4.dev0 |
toree | 0.5.0 |
torcia | 2.6.0 |
torch-model-archiver | 0.11.1 |
torcheval | 0.0.7 |
tromba d'aria | 6.4.2 |
torchvision | 0.21.0 |
traitlets | 5.14.3 |
trasformatori | 4.53.1 |
uritemplate | 4.1.1 |
virtualenv | 20.26.6 |
wordcloud | 1.9.4 |
xgboost | 2.1.4 |
Librerie R
Le seguenti versioni della libreria R sono incluse nell'immagine 2.3-ml-ubuntu
.
Nome pacchetto | Versione |
---|---|
r-ggplot2 | 3.4.4 |
r-irkernel | 1.3.2 |
r-rcurl | 1,98-1,16 |
r-recommended | 4.3 |