Perubahan penting di 2.3:
Versi
2.3
adalah image ringan yang hanya berisi komponen inti, sehingga mengurangi eksposur terhadap Common Vulnerabilities and Exposures (CVE). Untuk persyaratan kepatuhan keamanan yang lebih tinggi, gunakan versi image2.3
atau yang lebih baru saat membuat cluster Dataproc.Jika Anda memilih untuk menginstal komponen opsional saat membuat cluster Dataproc dengan image
2.3
, komponen tersebut akan didownload dan diinstal selama pembuatan cluster. Hal ini dapat meningkatkan waktu startup cluster. Untuk menghindari penundaan ini, Anda dapat membuat image kustom dengan komponen opsional yang sudah diinstal sebelumnya. Hal ini dapat dilakukan dengan menjalankangenerate_custom_image.py
dengan flag--optional-components
.
Catatan:
Berikut adalah komponen opsional dalam image 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- Notebook JupyterLab
- Ranger
- Solr
- Zeppelin Notebook
- Zookeeper
yarn.nodemanager.recovery.enabled
dan HDFS Audit Logging diaktifkan secara default dalam image 2.3.micromamba, bukan conda di versi image sebelumnya, diinstal sebagai bagian dari penginstalan Python.
Gambar
2.3.x-*-arm
hanya mendukung komponen yang telah diinstal sebelumnya dan komponen opsional berikut. 2.3 komponen opsional lainnya dan semua tindakan inisialisasi tidak didukung:- Apache Hive WebHCat
- Docker
- Zeppelin
- Zookeeper (diinstal di cluster ketersediaan tinggi; komponen opsional di cluster lain)
Masalah penginstalan Docker dan Zeppelin:
- Penginstalan akan gagal jika cluster tidak memiliki akses internet publik. Sebagai solusi, buat cluster yang menggunakan image kustom dengan komponen opsional yang sudah diinstal sebelumnya. Anda dapat melakukannya dengan menjalankan
generate_custom_image.py
dengan flag--optional-components
. - Penginstalan dapat gagal jika cluster disematkan ke versi image sub-minor yang lebih lama: Paket diinstal sesuai permintaan dari repositori OSS publik, dan paket mungkin tidak tersedia di upstream untuk mendukung penginstalan.
Sebagai solusi sementara, buat cluster yang menggunakan image kustom dengan komponen opsional yang sudah diinstal sebelumnya di image kustom. Untuk melakukannya, jalankan
generate_custom_image.py
dengan flag--optional-components
.
- Penginstalan akan gagal jika cluster tidak memiliki akses internet publik. Sebagai solusi, buat cluster yang menggunakan image kustom dengan komponen opsional yang sudah diinstal sebelumnya. Anda dapat melakukannya dengan menjalankan
Komponen machine learning (ML) versi 2.3 gambar
Image Dataproc 2.3-ml-ubuntu
memperluas image dasar 2.3
dengan software khusus ML. Ini mendukung komponen opsional gambar 2.3 dan fitur 2.3 lainnya, serta menambahkan versi komponen yang tercantum di bagian berikut.
Library khusus GPU
Untuk tugas Dataproc yang menggunakan VM GPU,
driver dan library NVIDIA berikut tersedia di image
2.3-ml-ubuntu
. Anda dapat menggunakannya untuk menyelesaikan tugas berikut:
- Percepat workload batch Spark dengan library NVIDIA Spark Rapids
- Melatih workload machine learning
- Menjalankan inferensi batch terdistribusi menggunakan Spark
Nama Paket | Versi |
---|---|
Spark Rapids | 25.04.0 |
Driver NVIDIA | Ubuntu 22.04 LTS yang Dipercepat dengan driver NVIDIA versi 570 |
CUDA | 12.6.3 |
cublas | 12.6.4 |
cusolver | 11.7.1 |
cupti | 12.6.80 |
cusparse | 12.5.4 |
cuDNN | 9.10.1 |
NCCL | 2.27.5 |
Library XGBoost
Versi paket Maven berikut tersedia di image 2.3-ml-ubuntu
agar Anda dapat menggunakan XGBoost dengan Spark di Java atau Scala.
ID Grup | Nama Paket | Versi |
---|---|---|
ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Library Python
Image 2.3-ml-ubuntu
berisi library berikut, yang mendukung berbagai
tahapan dalam siklus proses ML.
Paket | Versi |
---|---|
mempercepat | 1.8.1 |
conda | 23.11.0 |
cookiecutter | 2.5.0 |
curl | 8.12.1 |
cython | 3.0.12 |
dask | 1 Desember 2023 |
datasets | 3.6.0 |
deepspeed | 0.17.2 |
delta-spark | 3.2.0 |
evaluate | 0.4.5 |
fastavro | 1.9.7 |
fastparquet | 1 Oktober 2023 |
fiona | 1.10.0 |
gateway-provisioners[yarn] | 0.4.0 |
gcsfs | 2023.12.2.post1 |
google-auth-oauthlib | 1.2.2 |
google-cloud-aiplatform | 1.88.0 |
google-cloud-bigquery[pandas] | 3.31.0 |
google-cloud-bigquery-storage | 2.30.0 |
google-cloud-bigtable | 2.30.1 |
google-cloud-container | 2.56.1 |
google-cloud-datacatalog | 3.26.1 |
google-cloud-dataproc | 5.18.1 |
google-cloud-datastore | 2.21.0 |
google-cloud-language | 2.17.2 |
google-cloud-logging | 3.11.4 |
google-cloud-monitoring | 2.27.2 |
google-cloud-pubsub | 2.29.1 |
google-cloud-redis | 2.18.1 |
google-cloud-spanner | 3.53.0 |
google-cloud-speech | 2.32.0 |
google-cloud-storage | 2.19.0 |
google-cloud-texttospeech | 2.25.1 |
google-cloud-translate | 3.20.3 |
google-cloud-vision | 3.10.2 |
huggingface_hub | 0.33.1 |
httplib2 | 0.22.0 |
ipyparallel | 8.6.1 |
ipython-sql | 0.3.9 |
ipywidgets | 8.1.7 |
jupyter_contrib_nbextensions | 0.7.0 |
jupyter_http_over_ws | 0.0.8 |
jupyter_kernel_gateway | 2.5.2 |
jupyter_server | 1.24.0 |
jupyterhub | 4.1.6 |
jupyterlab | 3.6.8 |
jupyterlab-git | 0.44.0 |
jupyterlab_widgets | 3.0.15 |
koala | 0.22.0 |
langchain | 0.3.26 |
lightgbm | 4.6.0 |
markdown | 3.5.2 |
matplotlib | 3.8.4 |
mlflow | 3.1.1 |
nbconvert | 7.14.2 |
nbdime | 3.2.1 |
nltk | 3.9.1 |
notebook | 6.5.7 |
numba | 0.58.1 |
numpy | 1.26.4 |
oauth2client | 4.1.3 |
onnx | 1.17.0 |
openblas | 0.3.25 |
opencv | 4.11.0 |
orc | 2.1.1 |
pandas | 2.1.4 |
pandas-profiling | 3.0.0 |
pabrik kertas | 2.4.0 |
pyarrow | 16.1.0 |
pydot | 2.0.0 |
pyhive | 0.7.0 |
pynvml | 12.0.0 |
pysal | 23.7 |
pytables | 3.9.2 |
python | 3.11 |
regex | 25 Desember 2023 |
permintaan | 2.32.2 |
requests-kerberos | 0.12.0 |
rtree | 1.1.0 |
scikit-image | 0.22.0 |
scikit-learn | 1.5.2 |
scipy | 1.11.4 |
seaborn | 0.13.2 |
sentence-transformers | 5.0.0 |
setuptools | 79.0.1 |
shap | 0.48.0 |
berbentuk indah | 2.1.1 |
spacy | 3.8.7 |
spark-tensorflow-distributor | 1.0.0 |
spyder | 5.5.6 |
sqlalchemy | 2.0.41 |
sympy | 1.13.3 |
tensorflow | 2.18.0 |
tokenizer | 0.21.4.dev0 |
toree | 0.5.0 |
senter | 2.6.0 |
torch-model-archiver | 0.11.1 |
torcheval | 0.0.7 |
tornado | 6.4.2 |
torchvision | 0.21.0 |
traitlets | 5.14.3 |
transformer | 4.53.1 |
uritemplate | 4.1.1 |
virtualenv | 20.26.6 |
wordcloud | 1.9.4 |
xgboost | 2.1.4 |
Library R
Versi library R berikut disertakan dalam image 2.3-ml-ubuntu
.
Nama Paket | Versi |
---|---|
r-ggplot2 | 3.4.4 |
r-irkernel | 1.3.2 |
r-rcurl | 1.98-1.16 |
r-direkomendasikan | 4.3 |