Questa pagina è stata tradotta dall'API Cloud Translation.

Migliorare le prestazioni su una GPU condivisa utilizzando NVIDIA MPS

Se esegui più processi SDK su una GPU Dataflow condivisa, puoi migliorare l'efficienza e l'utilizzo della GPU attivando il servizio NVIDIA Multi-Process (MPS). MPS supporta l'elaborazione simultanea su una GPU consentendo ai processi di condividere contesti CUDA e risorse di pianificazione. L'MPS può ridurre i costi di commutazione del contesto, aumentare il parallelismo e ridurre i requisiti di archiviazione.

I flussi di lavoro target sono pipeline Python che vengono eseguite su worker con più di una vCPU.

MPS è una tecnologia NVIDIA che implementa l'API CUDA, una piattaforma NVIDIA che supporta il calcolo GPU generico. Per ulteriori informazioni, consulta la guida dell'utente di NVIDIA Multi-Process Service.

Vantaggi

Migliora l'elaborazione parallela e il throughput complessivo per le pipeline GPU, soprattutto per i carichi di lavoro con un utilizzo ridotto delle risorse GPU.
Migliora l'utilizzo della GPU, il che potrebbe ridurre i costi.

Supporto e limitazioni

MPS è supportato solo sui worker Dataflow che utilizzano una singola GPU.
La pipeline non può utilizzare opzioni che limitano il parallelismo.
Evita di superare la memoria GPU disponibile, in particolare per i casi d'uso che richiedono il caricamento di modelli di machine learning di grandi dimensioni. Bilancia il numero di vCPU e dei processi SDK con la memoria GPU disponibile di cui questi processi hanno bisogno.
MPS non influisce sulla concorrenza delle operazioni non GPU.
Dataflow Prime non supporta MPS.

Abilita MPS

Quando esegui una pipeline con GPU, abilita MPS procedendo nel seguente modo:

Nell'opzione della pipeline --dataflow_service_options, aggiungi use_nvidia_mps al parametro worker_accelerator.
Imposta count su 1.
Non utilizzare l'opzione pipeline --experiments=no_use_multiple_sdk_containers.

L'opzione della pipeline --dataflow_service_options è la seguente:

--dataflow_service_options="worker_accelerator=type:GPU_TYPE;count:1;install-nvidia-driver;use_nvidia_mps"

Se utilizzi TensorFlow e attivi MPS:

Attiva l'allocazione dinamica della memoria sulla GPU. Utilizza una delle seguenti opzioni TensorFlow:
- Attiva la crescita della memoria chiamando tf.config.experimental.set_memory_growth(gpu, True).
- Imposta la variabile di ambiente TF_FORCE_GPU_ALLOW_GROWTH su true.
Utilizza dispositivi logici con limiti di memoria appropriati.
Per un rendimento ottimale, se possibile, forza l'uso della GPU utilizzando il posizionamento dei dispositivi flessibile o il posizionamento manuale.

Passaggi successivi

Per altre best practice, consulta GPU e parallelismo dei worker.

Migliorare le prestazioni su una GPU condivisa utilizzando NVIDIA MPS Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Vantaggi

Supporto e limitazioni

Abilita MPS

Passaggi successivi

Migliorare le prestazioni su una GPU condivisa utilizzando NVIDIA MPS