Questa pagina descrive le best practice per la creazione di pipeline utilizzando le GPU.
Per informazioni ed esempi su come attivare le GPU nei job Dataflow, consulta Esegui una pipeline con le GPU ed Elaborazione di immagini satellitari Landsat con le GPU.
Prerequisiti per l'utilizzo delle GPU in Dataflow
- Per utilizzare le GPU con il job Dataflow, devi utilizzare Runner v2.
- Dataflow esegue il codice utente nelle VM worker all'interno di un container Docker.
Queste VM worker eseguono Container-Optimized OS.
Affinché i job Dataflow utilizzino le GPU, devi soddisfare i seguenti prerequisiti:
- I driver GPU sono installati sulle VM worker e accessibili al container Docker. Per saperne di più, consulta Installare i driver GPU.
- Le librerie GPU richieste dalla pipeline, ad esempio le librerie NVIDIA CUDA-X o il toolkit NVIDIA CUDA, sono installate nell'immagine del container personalizzata. Per saperne di più, consulta Configurare l'immagine container.
- Poiché i container GPU sono in genere di grandi dimensioni, per evitare di esaurire lo spazio su disco, aumenta la dimensione del disco di avvio predefinita a 50 gigabyte o più.
Considerazioni
Quando progetti gli ambienti di test e di produzione, considera i seguenti fattori.
Sviluppo locale
L'utilizzo di Apache Beam con le GPU NVIDIA consente di creare pipeline di elaborazione dati su larga scala che gestiscono la preelaborazione e l'inferenza. Quando utilizzi le GPU per lo sviluppo locale, tieni presente le seguenti informazioni:
Spesso, i flussi di lavoro di elaborazione dei dati utilizzano librerie aggiuntive che devi installare nell'ambiente di lancio e nell'ambiente di esecuzione sui worker Dataflow. Questa configurazione aggiunge passaggi al flusso di lavoro di sviluppo per configurare i requisiti della pipeline o per utilizzare container personalizzati in Dataflow. È utile disporre di un ambiente di sviluppo locale che simuli il più possibile l'ambiente di produzione.
Se il tuo flusso di lavoro soddisfa entrambi i seguenti criteri, non devi creare container personalizzati o modificare il flusso di lavoro di sviluppo per configurare i requisiti della pipeline:
- Stai utilizzando una libreria che utilizza implicitamente le GPU NVIDIA.
- Il tuo codice non richiede modifiche per supportare la GPU.
Alcune librerie non passano in modo trasparente dall'utilizzo della CPU a quello della GPU e richiedono quindi build specifiche e percorsi di codice diversi. Per replicare il ciclo di vita di sviluppo code-run-code per questo scenario, sono necessari passaggi aggiuntivi.
Quando esegui esperimenti locali, replica l'ambiente del worker Dataflow nel modo più fedele possibile. A seconda della libreria, potrebbe essere necessario un computer con una GPU e le librerie GPU richieste installate. Questo tipo di macchina potrebbe non essere disponibile nel tuo ambiente locale. Puoi emulare l'ambiente del runner Dataflow utilizzando un container in esecuzione su una macchina virtuale Google Cloud Platform dotata di GPU.
Specifiche dei tipi di macchine
Per informazioni dettagliate sul supporto dei tipo di macchina per ogni modello di GPU, consulta Piattaforme GPU. Le GPU supportate con i tipi di macchine N1 supportano anche i tipi di macchine N1 personalizzati.
Il tipo e il numero di GPU definiscono i limiti superiori per le quantità disponibili di vCPU e memoria che i worker possono avere. Per trovare le limitazioni corrispondenti, consulta Disponibilità.
La specifica di un numero maggiore di CPU o di memoria potrebbe richiedere la specifica di un numero maggiore di GPU.
Per saperne di più, consulta GPU su Compute Engine.
Ottimizzare l'utilizzo delle risorse
La maggior parte delle pipeline non è composta interamente da trasformazioni che richiedono una GPU. Una pipeline tipica ha una fase di importazione che utilizza una delle numerose origini fornite da Apache Beam. Questa fase è seguita dalle trasformazioni di manipolazione o modellazione dei dati, che vengono poi inseriti in una trasformazione GPU.
L'adattamento giusto utilizza i suggerimenti per le risorse di Apache Beam per personalizzare le risorse dei worker per le pipeline batch. Quando l'adeguamento ottimale è attivato, Dataflow utilizza le GPU solo per le fasi della pipeline che ne hanno bisogno. Di conseguenza, questa funzionalità migliora la flessibilità e la capacità della pipeline, riducendo potenzialmente i costi.
Per ulteriori informazioni, vedi Aderenza corretta.
GPU e parallelismo dei worker
Per le pipeline Python che utilizzano l'architettura Dataflow Runner v2, Dataflow avvia un processo SDK Apache Beam per core VM. Ogni processo SDK viene eseguito nel proprio container Docker e a sua volta genera molti thread, ognuno dei quali elabora i dati in entrata.
Le GPU utilizzano un'architettura multi-processo e le GPU nei worker Dataflow sono visibili a tutti i processi e thread.
Se esegui più processi SDK su una GPU condivisa, puoi migliorare l'efficienza e l'utilizzo della GPU attivando NVIDIA Multi-Process Service (MPS). MPS migliora il parallelismo dei worker e la velocità effettiva complessiva per le pipeline GPU, in particolare per i carichi di lavoro con un basso utilizzo delle risorse GPU. Per ulteriori informazioni, consulta Migliorare le prestazioni su una GPU condivisa utilizzando NVIDIA MPS.
Per evitare l'oversubscription della memoria GPU, potresti dover gestire l'accesso alla GPU. Se utilizzi TensorFlow, uno dei seguenti suggerimenti può aiutarti a evitare l'oversubscription della memoria GPU:
Configura i worker Dataflow in modo che avviino un solo processo Python in container, indipendentemente dal numero di vCPU worker. Per eseguire questa configurazione, quando avvii il job, utilizza le seguenti opzioni della pipeline:
--experiments=no_use_multiple_sdk_containers
--number_of_worker_harness_threads
Per ulteriori informazioni su quanti thread utilizzare, consulta Ridurre il numero di thread.
Workload di inferenza
Quando utilizzi modelli di machine learning (ML) per eseguire inferenze locali e remote, utilizza la trasformazione RunInference
Apache Beam integrata.
L'API RunInference
è un PTransform
ottimizzato per le inferenze di machine learning. L'utilizzo della trasformazione RunInference
può migliorare l'efficienza quando utilizzi
modelli ML nelle pipeline.
Flusso di lavoro
Il seguente flusso di lavoro in due fasi mostra come creare una pipeline utilizzando le GPU. Questo flusso gestisce separatamente i problemi relativi alla GPU e a non GPU e accorcia il ciclo di feedback.
Crea una pipeline
Crea una pipeline che possa essere eseguita su Dataflow. Sostituisci le trasformazioni che richiedono GPU con quelle che non le utilizzano, ma che sono funzionalmente identiche:
Crea tutte le trasformazioni che riguardano l'utilizzo della GPU, come l'importazione e la manipolazione dei dati.
Crea uno stub per la trasformazione della GPU con un pass-through o una modifica dello schema.
Testare localmente
Testa la parte della GPU del codice della pipeline nell'ambiente che simula l'ambiente di esecuzione del worker Dataflow. I passaggi seguenti descrivono uno dei metodi per eseguire questo test:
Crea un'immagine Docker con tutte le librerie necessarie.
Inizia lo sviluppo del codice GPU.
Inizia il ciclo di esecuzione del codice utilizzando una macchina virtuale Google Cloud Platform con l'immagine Docker. Per escludere incompatibilità delle librerie, esegui il codice GPU in un processo Python locale separatamente da una pipeline Apache Beam. Quindi, esegui l'intera pipeline sul runner diretto o avviala su Dataflow.
Utilizza una VM che esegue un sistema operativo ottimizzato per i container
Per un ambiente minimo, utilizza una macchina virtuale (VM) ottimizzata per i container. Per saperne di più, consulta Crea una VM con GPU collegate.
Il flusso generale è:
Crea una VM.
Connettiti alla VM ed esegui i seguenti comandi:
sudo cos-extensions install gpu -- -version latest sudo mount --bind /var/lib/nvidia /var/lib/nvidia sudo mount -o remount,exec /var/lib/nvidia
Verifica che le GPU siano disponibili:
./nvidia-smi
Avvia un container Docker con i driver GPU dalla VM montata come volumi. Ad esempio:
sudo docker run --rm -it --entrypoint /bin/bash --volume /var/lib/nvidia/lib64:/usr/local/nvidia/lib64 --volume /var/lib/nvidia/bin:/usr/local/nvidia/bin --privileged gcr.io/bigdatapivot/image_process_example:latest
Per un Dockerfile di esempio, consulta Crea un'immagine container personalizzata. Aggiungi tutte le dipendenze necessarie per la pipeline al Dockerfile.
Per ulteriori informazioni sull'utilizzo di un'immagine Docker preconfigurata per l'utilizzo della GPU, consulta Utilizzare un'immagine esistente configurata per l'utilizzo della GPU.
Strumenti per lavorare con sistemi ottimizzati per i container
Per configurare Docker CLI in modo che utilizzi
docker-credential-gcr
come assistente per le credenziali per il set predefinito di Google Container Registries (GCR), utilizza:sudo docker-credential-gcr configure-docker
Per saperne di più sulla configurazione delle credenziali Docker, consulta docker-credential-gcr.
Per copiare file, ad esempio il codice della pipeline, da o verso una VM, utilizza
toolbox
. Questa tecnica è utile quando si utilizza un'immagine ottimizzata personalizzata. Ad esempio:toolbox /google-cloud-sdk/bin/gsutil cp gs://bucket/gpu/image_process/* /media/root/home/<userid>/opencv/
Per ulteriori informazioni, consulta la sezione Debug dei problemi relativi ai nodi mediante gli strumenti.
Passaggi successivi
- Scopri di più sul supporto di Dataflow per le GPU.
- Scopri di più su come eseguire una pipeline utilizzando le GPU.
- Consulta la sezione Elaborazione di immagini satellitari Landsat con le GPU.