Alterações importantes na versão 2.3:
A versão
2.3
é uma imagem simples que contém apenas componentes essenciais, o que reduz a exposição a vulnerabilidades e exposições comuns (CVEs). Para requisitos de conformidade de segurança mais elevados, use a versão da imagem2.3
ou posterior quando criar um cluster do Dataproc.Se optar por instalar componentes opcionais quando criar um cluster do Dataproc com a imagem
2.3
, estes são transferidos e instalados durante a criação do cluster. Isto pode aumentar o tempo de arranque do cluster. Para evitar este atraso, pode criar uma imagem personalizada com os componentes opcionais pré-instalados. Isto é conseguido executandogenerate_custom_image.py
com a flag--optional-components
.
Notas:
Seguem-se os componentes opcionais em imagens 2.3:
- Apache Flink
- Apache Hive WebHCat
- Apache Hudi
- Apache Iceberg
- Apache Pig
- Delta Lake
- Docker
- JupyterLab Notebook
- Ranger
- Solr
- Zeppelin Notebook
- Zelador de jardim zoológico
yarn.nodemanager.recovery.enabled
e o registo de auditoria do HDFS estão ativados por predefinição nas imagens 2.3.O micromamba, em vez do conda nas versões de imagem anteriores, é instalado como parte da instalação do Python.
As imagens
2.3.x-*-arm
só suportam os componentes pré-instalados e os seguintes componentes opcionais. Os outros 2,3 componentes opcionais e todas as ações de inicialização não são suportados:- Apache Hive WebHCat
- Docker
- Zeppelin
- Zookeeper (instalado em clusters de alta disponibilidade; componente opcional noutros clusters)
Problemas de instalação do Docker e do Zeppelin:
- A instalação falha se o cluster não tiver acesso à Internet pública. Como solução alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Pode fazê-lo executando o comando
generate_custom_image.py
com a flag--optional-components
. - A instalação pode falhar se o cluster estiver fixado a uma versão de imagem secundária inferior mais antiga: os pacotes são instalados a pedido a partir de repositórios OSS públicos, e um pacote pode não estar disponível a montante para suportar a instalação.
Como solução alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados na imagem personalizada. Para o fazer, execute
generate_custom_image.py
com a flag--optional-components
.
- A instalação falha se o cluster não tiver acesso à Internet pública. Como solução alternativa, crie um cluster que use uma imagem personalizada com componentes opcionais pré-instalados. Pode fazê-lo executando o comando
Componentes de aprendizagem automática (AA) da versão 2.3 de imagens
A imagem do Dataproc 2.3-ml-ubuntu
estende a imagem de base 2.3 com software específico de ML. Suporta componentes opcionais de imagens 2.3 e outras funcionalidades 2.3, e adiciona as versões de componentes indicadas nas secções seguintes.
Bibliotecas específicas da GPU
Para tarefas do Dataproc que usam VMs de GPU,
o seguinte controlador e bibliotecas da NVIDIA estão disponíveis na imagem 2.3-ml-ubuntu
. Pode usá-las para realizar as seguintes tarefas:
- Acelere as cargas de trabalho em lote do Spark com a biblioteca NVIDIA Spark Rapids
- Forme cargas de trabalho de aprendizagem automática
- Execute a inferência em lote distribuída através do Spark
Nome do Pacote | Versão |
---|---|
Spark Rapids | 25.04.0 |
Controlador NVIDIA | Ubuntu 22.04 LTS acelerado com a versão 570 do controlador NVIDIA |
CUDA | 12.6.3 |
cublas | 12.6.4 |
cusolver | 11.7.1 |
cupti | 12.6.80 |
cusparse | 12.5.4 |
cuDNN | 9.10.1 |
NCCL | 2.27.5 |
Bibliotecas XGBoost
As seguintes versões do pacote Maven
estão disponíveis na imagem 2.3-ml-ubuntu
para lhe permitir usar o
XGBoost com o Spark em Java ou
Scala.
ID do grupo | Nome do Pacote | Versão |
---|---|---|
ml.dmlc | xgboost4j-gpu_2.12 | 2.1.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 2.1.1 |
Bibliotecas Python
A imagem 2.3-ml-ubuntu
contém as seguintes bibliotecas, que suportam diferentes fases no ciclo de vida da aprendizagem automática.
Pacote | Versão |
---|---|
acelerar | 1.8.1 |
conda | 23.11.0 |
cortador de biscoitos | 2.5.0 |
curl | 8.12.1 |
cython | 3.0.12 |
dask | 2023.12.1 |
conjuntos de dados | 3.6.0 |
deepspeed | 0.17.2 |
delta-spark | 3.2.0 |
avaliar | 0.4.5 |
fastavro | 1.9.7 |
fastparquet | 01/10/2023 |
fiona | 1.10.0 |
gateway-provisioners[yarn] | 0.4.0 |
gcsfs | 2023.12.2.post1 |
google-auth-oauthlib | 1.2.2 |
google-cloud-aiplatform | 1.88.0 |
google-cloud-bigquery[pandas] | 3.31.0 |
google-cloud-bigquery-storage | 2.30.0 |
google-cloud-bigtable | 2.30.1 |
google-cloud-container | 2.56.1 |
google-cloud-datacatalog | 3.26.1 |
google-cloud-dataproc | 5.18.1 |
google-cloud-datastore | 2.21.0 |
google-cloud-language | 2.17.2 |
google-cloud-logging | 3.11.4 |
google-cloud-monitoring | 2.27.2 |
google-cloud-pubsub | 2.29.1 |
google-cloud-redis | 2.18.1 |
google-cloud-spanner | 3.53.0 |
google-cloud-speech | 2.32.0 |
google-cloud-storage | 2.19.0 |
google-cloud-texttospeech | 2.25.1 |
google-cloud-translate | 3.20.3 |
google-cloud-vision | 3.10.2 |
huggingface_hub | 0.33.1 |
httplib2 | 0.22.0 |
ipyparallel | 8.6.1 |
ipython-sql | 0.3.9 |
ipywidgets | 8.1.7 |
jupyter_contrib_nbextensions | 0.7.0 |
jupyter_http_over_ws | 0.0.8 |
jupyter_kernel_gateway | 2.5.2 |
jupyter_server | 1.24.0 |
jupyterhub | 4.1.6 |
jupyterlab | 3.6.8 |
jupyterlab-git | 0.44.0 |
jupyterlab_widgets | 3.0.15 |
coalas | 0.22.0 |
langchain | 0.3.26 |
lightgbm | 4.6.0 |
markdown | 3.5.2 |
matplotlib | 3.8.4 |
mlflow | 3.1.1 |
nbconvert | 7.14.2 |
nbdime | 3.2.1 |
nltk | 3.9.1 |
bloco de notas | 6.5.7 |
numba | 0.58.1 |
numpy | 1.26.4 |
oauth2client | 4.1.3 |
onnx | 1.17.0 |
openblas | 0.3.25 |
opencv | 4.11.0 |
orc | 2.1.1 |
pandas | 2.1.4 |
pandas-profiling | 3.0.0 |
fábrica de papel | 2.4.0 |
pyarrow | 16.1.0 |
pydot | 2.0.0 |
pyhive | 0.7.0 |
pynvml | 12.0.0 |
pysal | 23,7 |
pytables | 3.9.2 |
python | 3.11 |
regex | 25/12/2023 |
pedidos | 2.32.2 |
requests-kerberos | 0.12.0 |
rtree | 1.1.0 |
scikit-image | 0.22.0 |
scikit-learn | 1.5.2 |
scipy | 1.11.4 |
seaborn | 0.13.2 |
sentence-transformers | 5.0.0 |
setuptools | 79.0.1 |
shap | 0.48.0 |
shapely | 2.1.1 |
spacy | 3.8.7 |
spark-tensorflow-distributor | 1.0.0 |
spyder | 5.5.6 |
sqlalchemy | 2.0.41 |
sympy | 1.13.3 |
tensorflow | 2.18.0 |
analisadores de tokens | 0.21.4.dev0 |
toree | 0.5.0 |
lanterna | 2.6.0 |
torch-model-archiver | 0.11.1 |
torcheval | 0.0.7 |
tornado | 6.4.2 |
torchvision | 0.21.0 |
traitlets | 5.14.3 |
transformadores | 4.53.1 |
uritemplate | 4.1.1 |
virtualenv | 20.26.6 |
wordcloud | 1.9.4 |
xgboost | 2.1.4 |
Bibliotecas R
As seguintes versões da biblioteca R estão incluídas na imagem 2.3-ml-ubuntu
.
Nome do Pacote | Versão |
---|---|
r-ggplot2 | 3.4.4 |
r-irkernel | 1.3.2 |
r-rcurl | 1,98-1,16 |
r-recommended | 4,3 |