Questa pagina è stata tradotta dall'API Cloud Translation.

Esegui una pipeline con GPU

Questa pagina spiega come eseguire una pipeline Apache Beam su Dataflow con GPU. I job che utilizzano le GPU comportano addebiti come specificato nella pagina dei prezzi di Dataflow.

Per ulteriori informazioni sull'utilizzo delle GPU con Dataflow, consulta Supporto di Dataflow per le GPU. Per ulteriori informazioni sul flusso di lavoro dello sviluppatore per la creazione di pipeline che utilizzano le GPU, consulta Informazioni sulle GPU con Dataflow.

Utilizzare i blocchi note Apache Beam

Se hai già una pipeline che vuoi eseguire con le GPU su Dataflow, puoi saltare questa sezione.

I blocchi note Apache Beam offrono un modo pratico per prototipare e sviluppare in modo iterativo la pipeline con le GPU senza configurare un ambiente di sviluppo. Per iniziare, leggi la guida Sviluppo con i notebook Apache Beam, avvia un'istanza dei notebook Apache Beam e segui il notebook di esempio Utilizzare le GPU con Apache Beam.

Esegui il provisioning della quota di GPU

I dispositivi GPU sono soggetti alla disponibilità di quota del tuo progetto Google Cloud Platform. Richiedi una quota di GPU nella regione che preferisci.

Installa i driver della GPU

Per installare i driver NVIDIA sui worker Dataflow, aggiungi install-nvidia-driver all'opzione di servizio worker_accelerator.

Quando specifichi l'opzione install-nvidia-driver, Dataflow installa i driver NVIDIA sui worker Dataflow utilizzando l'utilità cos-extensions fornita da Container-Optimized OS. Se specifichi install-nvidia-driver, accetti il contratto di licenza NVIDIA.

I file binari e le librerie forniti dal programma di installazione del driver NVIDIA vengono montati nel container che esegue il codice utente della pipeline in /usr/local/nvidia/.

La versione del driver GPU dipende dalla versione di Container-Optimized OS utilizzata da Dataflow. Per trovare la versione del driver GPU per un determinato job Dataflow, cerca GPU driver nei log dei passaggi di Dataflow del job.

Crea un'immagine container personalizzata

Per interagire con le GPU, potresti aver bisogno di software NVIDIA aggiuntivo, come le librerie con accelerazione GPU e il CUDA Toolkit. Fornisci queste librerie nel container Docker che esegue il codice utente.

Per personalizzare l'immagine container, fornisci un'immagine che soddisfi il contratto dell'immagine container dell'SDK Apache Beam e che disponga delle librerie GPU necessarie.

Per fornire un'immagine container personalizzata, utilizza Dataflow Runner v2 e fornisci l'immagine container utilizzando l'opzione pipeline sdk_container_image. Se utilizzi Apache Beam versione 2.29.0 o precedenti, utilizza l'opzione worker_harness_container_image della pipeline. Per saperne di più, consulta Utilizzare i container personalizzati.

Per creare un'immagine container personalizzata, utilizza uno dei due approcci seguenti:

Utilizzare un'immagine esistente configurata per l'utilizzo della GPU
Utilizzare un'immagine container Apache Beam

Utilizza un'immagine esistente configurata per l'utilizzo della GPU

Puoi creare un'immagine Docker che soddisfi il contratto del container SDK Apache Beam da un'immagine di base esistente preconfigurata per l'utilizzo della GPU. Ad esempio, le immagini Docker TensorFlow e le immagini container NVIDIA sono preconfigurate per l'utilizzo della GPU.

Un Dockerfile di esempio basato sull'immagine Docker di TensorFlow con Python 3.6 ha il seguente aspetto:

ARG BASE=tensorflow/tensorflow:2.5.0-gpu
FROM $BASE

# Check that the chosen base image provides the expected version of Python interpreter.
ARG PY_VERSION=3.6
RUN [[ $PY_VERSION == `python -c 'import sys; print("%s.%s" % sys.version_info[0:2])'` ]] \
   || { echo "Could not find Python interpreter or Python version is different from ${PY_VERSION}"; exit 1; }

RUN pip install --upgrade pip \
    && pip install --no-cache-dir apache-beam[gcp]==2.29.0 \
    # Verify that there are no conflicting dependencies.
    && pip check

# Copy the Apache Beam worker dependencies from the Beam Python 3.6 SDK image.
COPY --from=apache/beam_python3.6_sdk:2.29.0 /opt/apache/beam /opt/apache/beam

# Apache Beam worker expects pip at /usr/local/bin/pip by default.
# Some images have pip in a different location. If necessary, make a symlink.
# This line can be omitted in Beam 2.30.0 and later versions.
RUN [[ `which pip` == "/usr/local/bin/pip" ]] || ln -s `which pip` /usr/local/bin/pip

# Set the entrypoint to Apache Beam SDK worker launcher.
ENTRYPOINT [ "/opt/apache/beam/boot" ]

Quando utilizzi le immagini Docker di TensorFlow, utilizza TensorFlow 2.5.0 o versioni successive. Le immagini Docker di TensorFlow precedenti installano il pacchetto tensorflow-gpu anziché il pacchetto tensorflow. La distinzione non è importante dopo la release di TensorFlow 2.1.0, ma diversi pacchetti downstream, come tfx, richiedono il pacchetto tensorflow.

Le dimensioni dei container di grandi dimensioni rallentano il tempo di avvio del worker. Questa modifica delle prestazioni potrebbe verificarsi quando utilizzi container come Deep Learning Containers.

Installare una versione specifica di Python

Se hai requisiti rigorosi per la versione di Python, puoi creare l'immagine da un'immagine di base NVIDIA che contiene le librerie GPU necessarie. Poi installa l'interprete Python.

L'esempio seguente mostra come selezionare un'immagine NVIDIA che non includa l'interprete Python dal catalogo delle immagini dei container CUDA. Modifica l'esempio per installare la versione necessaria di Python 3 e pip. L'esempio utilizza TensorFlow. Pertanto, quando scegli un'immagine, le versioni di CUDA e cuDNN nell'immagine di base soddisfano i requisiti per la versione di TensorFlow.

Un Dockerfile di esempio ha il seguente aspetto:

# Select an NVIDIA base image with needed GPU stack from https://ngc.nvidia.com/catalog/containers/nvidia:cuda

FROM nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04

RUN \
    # Add Deadsnakes repository that has a variety of Python packages for Ubuntu.
    # See: https://launchpad.net/~deadsnakes/+archive/ubuntu/ppa
    apt-key adv --keyserver keyserver.ubuntu.com --recv-keys F23C5A6CF475977595C89F51BA6932366A755776 \
    && echo "deb http://ppa.launchpad.net/deadsnakes/ppa/ubuntu focal main" >> /etc/apt/sources.list.d/custom.list \
    && echo "deb-src http://ppa.launchpad.net/deadsnakes/ppa/ubuntu focal main" >> /etc/apt/sources.list.d/custom.list \
    && apt-get update \
    && apt-get install -y curl \
        python3.8 \
        # With python3.8 package, distutils need to be installed separately.
        python3-distutils \
    && rm -rf /var/lib/apt/lists/* \
    && update-alternatives --install /usr/bin/python python /usr/bin/python3.8 10 \
    && curl https://bootstrap.pypa.io/get-pip.py | python \
    && pip install --upgrade pip \
    # Install Apache Beam and Python packages that will interact with GPUs.
    && pip install --no-cache-dir apache-beam[gcp]==2.29.0 tensorflow==2.4.0 \
    # Verify that there are no conflicting dependencies.
    && pip check

# Copy the Apache Beam worker dependencies from the Beam Python 3.8 SDK image.
COPY --from=apache/beam_python3.8_sdk:2.29.0 /opt/apache/beam /opt/apache/beam

# Set the entrypoint to Apache Beam SDK worker launcher.
ENTRYPOINT [ "/opt/apache/beam/boot" ]

In alcune distribuzioni del sistema operativo, potrebbe essere difficile installare versioni specifiche di Python utilizzando il gestore di pacchetti del sistema operativo. In questo caso, installa l'interprete Python con strumenti come Miniconda o pyenv.

Un Dockerfile di esempio ha il seguente aspetto:

FROM nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04

# The Python version of the Dockerfile must match the Python version you use
# to launch the Dataflow job.

ARG PYTHON_VERSION=3.8

# Update PATH so we find our new Conda and Python installations.
ENV PATH=/opt/python/bin:/opt/conda/bin:$PATH

RUN apt-get update \
    && apt-get install -y wget \
    && rm -rf /var/lib/apt/lists/* \
    # The NVIDIA image doesn't come with Python pre-installed.
    # We use Miniconda to install the Python version of our choice.
    && wget -q https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh \
    && bash Miniconda3-latest-Linux-x86_64.sh -b -p /opt/conda \
    && rm Miniconda3-latest-Linux-x86_64.sh \
    # Create a new Python environment with needed version, and install pip.
    && conda create -y -p /opt/python python=$PYTHON_VERSION pip \
    # Remove unused Conda packages, install necessary Python packages via pip
    # to avoid mixing packages from pip and Conda.
    && conda clean -y --all --force-pkgs-dirs \
    && pip install --upgrade pip \
    # Install Apache Beam and Python packages that will interact with GPUs.
    && pip install --no-cache-dir apache-beam[gcp]==2.29.0 tensorflow==2.4.0 \
    # Verify that there are no conflicting dependencies.
    && pip check \
    # Apache Beam worker expects pip at /usr/local/bin/pip by default.
    # You can omit this line when using Beam 2.30.0 and later versions.
    && ln -s $(which pip) /usr/local/bin/pip

# Copy the Apache Beam worker dependencies from the Apache Beam SDK for Python 3.8 image.
COPY --from=apache/beam_python3.8_sdk:2.29.0 /opt/apache/beam /opt/apache/beam

# Set the entrypoint to Apache Beam SDK worker launcher.
ENTRYPOINT [ "/opt/apache/beam/boot" ]

Utilizzare un'immagine container Apache Beam

Puoi configurare un'immagine container per l'utilizzo della GPU senza utilizzare immagini preconfigurate. Questo approccio è consigliato solo quando le immagini preconfigurate non funzionano. Per configurare la tua immagine container, devi selezionare librerie compatibili e configurare il loro ambiente di esecuzione.

Un Dockerfile di esempio ha il seguente aspetto:

FROM apache/beam_python3.7_sdk:2.24.0
ENV INSTALLER_DIR="/tmp/installer_dir"

# The base image has TensorFlow 2.2.0, which requires CUDA 10.1 and cuDNN 7.6.
# You can download cuDNN from NVIDIA website
# https://developer.nvidia.com/cudnn
COPY cudnn-10.1-linux-x64-v7.6.0.64.tgz $INSTALLER_DIR/cudnn.tgz
RUN \
    # Download CUDA toolkit.
    wget -q -O $INSTALLER_DIR/cuda.run https://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_418.87.00_linux.run && \

    # Install CUDA toolkit. Print logs upon failure.
    sh $INSTALLER_DIR/cuda.run --toolkit --silent || (egrep '^\[ERROR\]' /var/log/cuda-installer.log && exit 1) && \
    # Install cuDNN.
    mkdir $INSTALLER_DIR/cudnn && \
    tar xvfz $INSTALLER_DIR/cudnn.tgz -C $INSTALLER_DIR/cudnn && \

    cp $INSTALLER_DIR/cudnn/cuda/include/cudnn*.h /usr/local/cuda/include && \
    cp $INSTALLER_DIR/cudnn/cuda/lib64/libcudnn* /usr/local/cuda/lib64 && \
    chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn* && \
    rm -rf $INSTALLER_DIR

# A volume with GPU drivers will be mounted at runtime at /usr/local/nvidia.
ENV LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nvidia/lib64:/usr/local/cuda/lib64

Le librerie dei driver in /usr/local/nvidia/lib64 devono essere rilevabili nel container come librerie condivise. Per rendere rilevabili le librerie dei driver, configura la variabile di ambiente LD_LIBRARY_PATH.

Se utilizzi TensorFlow, devi scegliere una combinazione compatibile di versioni di CUDA Toolkit e cuDNN. Per ulteriori informazioni, consulta Requisiti software e Configurazioni build testate.

Seleziona il tipo e il numero di GPU per i worker Dataflow

Per configurare il tipo e il numero di GPU da collegare ai worker Dataflow, utilizza l'opzione di servizio worker_accelerator. Seleziona il tipo e il numero di GPU in base al tuo caso d'uso e a come prevedi di utilizzarle nella pipeline.

Per un elenco dei tipi di GPU supportati con Dataflow, consulta Supporto di Dataflow per le GPU.

Esegui il job con le GPU

Ecco alcune considerazioni da tenere presenti per l'esecuzione di un job Dataflow con GPU:

Poiché i container GPU sono in genere di grandi dimensioni, per evitare di esaurire lo spazio su disco, procedi nel seguente modo:
- Aumenta le dimensioni predefinite del disco di avvio a 50 gigabyte o più.
Considera quanti processi utilizzano contemporaneamente la stessa GPU su una VM worker. Quindi, decidi se vuoi limitare la GPU a un singolo processo o consentire a più processi di utilizzare la GPU.
- Se un processo dell'SDK Apache Beam può utilizzare la maggior parte della memoria GPU disponibile, ad esempio caricando un modello di grandi dimensioni su una GPU, potresti configurare i worker in modo che utilizzino un singolo processo impostando l'opzione della pipeline --experiments=no_use_multiple_sdk_containers. In alternativa, utilizza i worker con una vCPU utilizzando un tipo di macchina personalizzata, come n1-custom-1-NUMBER_OF_MB o n1-custom-1-NUMBER_OF_MB-ext, per memoria estesa. Per maggiori informazioni, consulta la pagina Utilizzare un tipo di macchina con più memoria per vCPU.
- Se la GPU è condivisa da più processi, abilita l'elaborazione simultanea su una GPU condivisa utilizzando NVIDIA Multi-Processing Service (MPS).
Per informazioni di base, vedi GPU e parallelismo dei worker.

Per eseguire un job Dataflow con GPU, utilizza il comando seguente. Per utilizzare right fitting, anziché utilizzare l'opzione di servizio worker_accelerator, utilizza il suggerimento per la risorsa accelerator.

Python

python PIPELINE \
  --runner "DataflowRunner" \
  --project "PROJECT" \
  --temp_location "gs://BUCKET/tmp" \
  --region "REGION" \
  --worker_harness_container_image "IMAGE" \
  --disk_size_gb "DISK_SIZE_GB" \
  --dataflow_service_options "worker_accelerator=type:GPU_TYPE;count:GPU_COUNT;install-nvidia-driver" \
  --experiments "use_runner_v2"

Sostituisci quanto segue:

PIPELINE: il file del codice sorgente della pipeline
PROJECT: il Google Cloud nome del progetto
BUCKET: il bucket Cloud Storage
REGION: una regione Dataflow, ad esempio us-central1. Seleziona una `REGION` con zone che supportano GPU_TYPE. Dataflow assegna automaticamente i worker a una zona con GPU in questa regione.
IMAGE: il percorso Artifact Registry per l'immagine Docker
DISK_SIZE_GB: le dimensioni del disco di avvio per ogni VM worker, ad esempio 50
GPU_TYPE: un tipo di GPU disponibile, ad esempio nvidia-tesla-t4.
GPU_COUNT: il numero di GPU da collegare a ogni VM worker, ad esempio 1

Verifica il job Dataflow

Per verificare che il job utilizzi VM worker con GPU:

Verifica che i nodi worker Dataflow per il job siano stati avviati.
Mentre un job è in esecuzione, trova una VM worker associata al job.
1. Nel prompt Cerca prodotti e risorse, incolla l'ID job.
2. Seleziona l'istanza VM di Compute Engine associata al job.

Puoi anche trovare un elenco di tutte le istanze in esecuzione nella console di Compute Engine.

Nella console Google Cloud , vai alla pagina Istanze VM.

Vai a Istanze VM
Fai clic su Dettagli istanza VM.
Verifica che la pagina dei dettagli contenga una sezione GPU e che le GPU siano collegate.

Se il job non è stato avviato con le GPU, verifica che l'opzione del servizio worker_accelerator sia configurata correttamente e visibile nell'interfaccia di monitoraggio di Dataflow in dataflow_service_options. L'ordine dei token nei metadati dell'acceleratore è importante.

Ad esempio, un'opzione della pipeline dataflow_service_options nell'interfaccia di monitoraggio di Dataflow potrebbe avere il seguente aspetto:

['worker_accelerator=type:nvidia-tesla-t4;count:1;install-nvidia-driver', ...]

Visualizzare l'utilizzo della GPU

Per visualizzare l'utilizzo della GPU sulle VM worker:

Nella console Google Cloud , vai a Monitoring o utilizza il pulsante seguente:

Vai a Monitoraggio
Nel riquadro di navigazione di Monitoring, fai clic su Metrics Explorer.
In Tipo di risorsa, specifica Dataflow Job. Per la metrica, specifica GPU utilization o GPU memory utilization, a seconda della metrica che vuoi monitorare.

Per ulteriori informazioni, consulta Esplora metriche.

Attiva il servizio di elaborazione multipla NVIDIA

Nelle pipeline Python eseguite su worker con più di una vCPU, puoi migliorare la concorrenza per le operazioni GPU attivando NVIDIA Multi-Process Service (MPS). Per ulteriori informazioni e passaggi per utilizzare MPS, consulta Migliorare le prestazioni di una GPU condivisa utilizzando NVIDIA MPS.

(Facoltativo) Configura un modello di provisioning

Puoi migliorare la possibilità di accedere alle risorse GPU configurando un modello di provisioning per la pipeline.

Dataflow supporta i seguenti modelli di provisioning: standard e con avvio flessibile.

Provisioning standard

Il provisioning standard è il modello di provisioning predefinito per tutti i job Dataflow con GPU. Le istanze che utilizzano risorse di acceleratore vengono create immediatamente in base alla disponibilità delle risorse.

Non devi configurare nulla per utilizzare il modello di provisioning standard.

Se le GPU non sono immediatamente disponibili nella zona o nella regione in cui esegui il job Dataflow, l'avvio del job potrebbe non riuscire. Per saperne di più, vedi Il job non viene eseguito immediatamente all'avvio.

Provisioning con avvio flessibile

Con il modello di provisioning con avvio flessibile, il provisioning delle istanze e delle risorse dell'acceleratore viene pianificato e completato in base alla disponibilità delle risorse. Puoi utilizzare il modello di provisioning con avvio flessibile per aumentare le probabilità di ottenere GPU per i workload di breve durata.

Per utilizzare il modello di provisioning con avvio flessibile, aggiungi provisioning_model:FLEX_START all'opzione di servizio worker_accelerator. Ad esempio:

worker_accelerator=type:nvidia-tesla-t4;count:1;install-nvidia-driver:5xx;provisioning_model:FLEX_START

Per verificare che il provisioning con avvio flessibile sia stato abilitato, cerca la seguente voce di log nel log job-message:

FLEX_START è abilitato per il job JOB_ID

Supporto e limitazioni

L'avvio flessibile è supportato nelle pipeline batch. Le pipeline in modalità flusso non sono supportate.
La pipeline deve essere completata entro sette giorni.
L'avvio flessibile consuma la quota preemptible. Se il progetto non dispone di quota preassegnata, viene utilizzata la quota standard.
Se non viene fornita una configurazione della zona worker, Dataflow sceglierà una singola zona in cui creare tutte le risorse in base al supporto hardware, alla disponibilità corrente delle risorse e delle quote e alle prenotazioni corrispondenti. Questa zona potrebbe essere diversa da quella in cui si trovano le risorse di servizio per il job.
La scalabilità automatica orizzontale non è supportata. Per utilizzare più di un worker, imposta l'opzione della pipeline --num_workers.
Le TPU non sono supportate.
Adattamento destro non è supportato.
Le GPU di cui è stato eseguito il provisioning con avvio flessibile verranno addebitate come specificato nella pagina dei prezzi di Dataflow.

Risoluzione dei problemi relativi all'avvio flessibile

Se il job non va a buon fine dopo 1 ora e viene visualizzato l'errore:

The Dataflow job appears to be stuck because no worker activity has been seen in the last 1h.

Vai alla pagina Quote nella console Google Cloud per assicurarti che il tuo progetto disponga di una quota PREEMPTIBLE_GPU_TYPE_GPUS sufficiente nella regione configurata per il job.

Utilizzare le GPU con Dataflow Prime

Dataflow Prime ti consente di richiedere acceleratori per un passaggio specifico della pipeline. Per utilizzare le GPU con Dataflow Prime, non utilizzare l'opzione della pipeline --dataflow-service_options=worker_accelerator. Richiedi invece le GPU con il suggerimento per le risorse accelerator. Per saperne di più, consulta Utilizzare i suggerimenti per le risorse.

Risolvere i problemi relativi al job Dataflow

Se riscontri problemi durante l'esecuzione del job Dataflow con le GPU, consulta Risolvere i problemi relativi al job Dataflow GPU.

Passaggi successivi

Scopri di più sul supporto delle GPU su Dataflow.
Esegui la pipeline di inferenza di machine learning con il tipo di GPU NVIDIA L4.
Consulta la sezione Elaborazione di immagini satellitari Landsat con le GPU.

Esegui una pipeline con GPU Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Utilizzare i blocchi note Apache Beam

Esegui il provisioning della quota di GPU

Installa i driver della GPU

Crea un'immagine container personalizzata

Utilizza un'immagine esistente configurata per l'utilizzo della GPU

Installare una versione specifica di Python

Utilizzare un'immagine container Apache Beam

Seleziona il tipo e il numero di GPU per i worker Dataflow

Esegui il job con le GPU

Python

Verifica il job Dataflow

Visualizzare l'utilizzo della GPU

Attiva il servizio di elaborazione multipla NVIDIA

(Facoltativo) Configura un modello di provisioning

Provisioning standard

Provisioning con avvio flessibile

Supporto e limitazioni

Risoluzione dei problemi relativi all'avvio flessibile

Utilizzare le GPU con Dataflow Prime

Risolvere i problemi relativi al job Dataflow

Passaggi successivi

Esegui una pipeline con GPU