Halaman ini menjelaskan cara menjalankan pipeline Dataflow dengan jenis GPU NVIDIA® L4. Jenis GPU L4 berguna untuk menjalankan pipeline inferensi machine learning.
Persyaratan
- Gunakan Apache Beam SDK versi 2.46 atau yang lebih baru. Apache Beam 2.50 atau yang lebih baru direkomendasikan.
- Anda memerlukan kuota GPU L4 (
NVIDIA_L4_GPUS
) di region tempat tugas Anda berjalan. Untuk mengetahui informasi selengkapnya, lihat Kuota GPU. - Jenis GPU L4 hanya tersedia dengan jenis mesin yang dioptimalkan akselerator G2. Untuk mengetahui informasi selengkapnya, lihat Seri mesin G2. Pipeline yang menggunakan jenis GPU L4 tunduk pada batasan standar G2.
- Jenis GPU NVIDIA L4 menggunakan driver NVIDIA versi 525.0 atau yang lebih baru dan toolkit CUDA versi 12.0 atau yang lebih baru. Setiap kode yang Anda gunakan dalam pipeline harus kompatibel dengan versi driver NVIDIA dan versi toolkit CUDA. Misalnya, jika menggunakan PyTorch, Anda harus menggunakan PyTorch versi 23.01 atau yang lebih baru.
Menjalankan pipeline dengan jenis GPU NVIDIA® L4
Untuk menggunakan jenis GPU NVIDIA L4, Anda harus menyertakan opsi pipeline dan opsi layanan berikut dalam kode pipeline.
Java
--workerMachineType=G2_MACHINE_TYPE
--dataflowServiceOptions="worker_accelerator=type:nvidia-l4;count:GPU_COUNT;install-nvidia-driver"
Python
--machine_type=G2_MACHINE_TYPE
--dataflow_service_options="worker_accelerator=type:nvidia-l4;count:GPU_COUNT;install-nvidia-driver"
Go
--worker_machine_type=G2_MACHINE_TYPE
--dataflow_service_options="worker_accelerator=type:nvidia-l4;count:GPU_COUNT;install-nvidia-driver"
Ganti nilai berikut:
- G2_MACHINE_TYPE: Jenis mesin G2 yang akan digunakan
- GPU_COUNT: Jumlah GPU yang akan digunakan. Setiap jenis mesin G2 memiliki jumlah tetap GPU NVIDIA L4. Untuk menemukan jumlah GPU yang tepat untuk jenis mesin Anda, lihat kolom Jumlah GPU di tabel jenis mesin standar G2.
Untuk informasi selengkapnya tentang cara menjalankan pipeline dengan GPU, lihat Menjalankan pipeline dengan GPU.
Mengelola dependensi
Untuk mengelola dependensi, gunakan penampung kustom. Untuk informasi selengkapnya, lihat Menggunakan penampung kustom di Dataflow.
Contoh Dockerfile berikut berisi dependensi yang kompatibel untuk pipeline yang menggunakan jenis GPU NVIDIA L4.
RUN apt-get -y update
RUN apt-get install [system packages]
# Install the SDK.
RUN pip install --no-cache-dir apache-beam[gcp]==2.51.0
# Install the machine learning dependencies.
RUN pip install --no-cache-dir tensorflow[and-cuda]
RUN pip install xgboost
RUN pip install transformers accelerate
(etc…..)
# Verify that the image doesn't have conflicting dependencies.
RUN pip check
# Copy files from official SDK image, including the script and dependencies.
COPY --from=apache/beam_python3.10_sdk:2.51.0 /opt/apache/beam /opt/apache/beam
# Set the entrypoint to Apache Beam SDK launcher.
ENTRYPOINT ["/opt/apache/beam/boot"]
Langkah selanjutnya
- Baca praktik terbaik untuk menggunakan Dataflow GPU.
- Menjalankan pipeline dengan GPU.
- Pelajari Dataflow ML lebih lanjut.