Halaman ini menjelaskan cara menjalankan pipeline Apache Beam di Dataflow dengan GPU. Tugas yang menggunakan GPU dikenai biaya seperti yang ditentukan di halaman harga Dataflow.
Untuk informasi selengkapnya tentang penggunaan GPU dengan Dataflow, lihat Dukungan Dataflow untuk GPU. Untuk mengetahui informasi selengkapnya tentang alur kerja developer untuk mem-build pipeline menggunakan GPU, lihat Tentang GPU dengan Dataflow.
Menggunakan notebook Apache Beam
Jika sudah memiliki pipeline yang ingin dijalankan dengan GPU di Dataflow, Anda dapat melewati bagian ini.
Notebook Apache Beam menawarkan cara yang mudah untuk membuat prototipe dan mengembangkan pipeline secara iteratif dengan GPU tanpa menyiapkan lingkungan pengembangan. Untuk memulai, baca panduan Mengembangkan dengan notebook Apache Beam, luncurkan instance notebook Apache Beam, dan ikuti contoh notebook Menggunakan GPU dengan Apache Beam.
Menyediakan kuota GPU
Perangkat GPU tunduk pada ketersediaan kuota project Google Cloud Anda. Minta kuota GPU di region pilihan Anda.
Menginstal driver GPU
Untuk menginstal driver NVIDIA di pekerja
Dataflow, tambahkan install-nvidia-driver
ke
opsi layanan worker_accelerator
.
Saat Anda menentukan opsi install-nvidia-driver
,
Dataflow akan menginstal driver NVIDIA ke pekerja Dataflow menggunakan
utilitas cos-extensions
yang disediakan oleh Container-Optimized OS. Dengan menentukan install-nvidia-driver
,
Anda setuju untuk menyetujui perjanjian lisensi NVIDIA.
Biner dan library yang disediakan oleh penginstal driver NVIDIA dipasang ke dalam
penampung yang menjalankan kode pengguna pipeline di /usr/local/nvidia/
.
Versi driver GPU
bergantung pada versi Container-Optimized OS yang digunakan oleh
Dataflow. Untuk menemukan versi driver GPU untuk tugas Dataflow tertentu, di Log Langkah Dataflow tugas Anda, telusuri GPU driver
.
Mem-build image container kustom
Untuk berinteraksi dengan GPU, Anda mungkin memerlukan software NVIDIA tambahan, seperti library yang dipercepat GPU dan CUDA Toolkit. Sediakan library ini di container Docker yang menjalankan kode pengguna.
Untuk menyesuaikan image container, sediakan image yang memenuhi kontrak image container Apache Beam SDK dan memiliki library GPU yang diperlukan.
Untuk menyediakan image container kustom, gunakan
Dataflow Runner v2 dan berikan
image container menggunakan opsi pipeline sdk_container_image
.
Jika Anda menggunakan Apache Beam versi 2.29.0 atau yang lebih lama, gunakan
opsi pipeline worker_harness_container_image
. Untuk informasi selengkapnya, lihat
Menggunakan penampung kustom.
Untuk mem-build image container kustom, gunakan salah satu dari dua pendekatan berikut:
- Menggunakan image yang ada dan dikonfigurasi untuk penggunaan GPU
- Menggunakan image container Apache Beam
Menggunakan image yang ada yang dikonfigurasi untuk penggunaan GPU
Anda dapat mem-build image Docker yang memenuhi kontrak penampung Apache Beam SDK dari image dasar yang ada yang telah dikonfigurasi sebelumnya untuk penggunaan GPU. Misalnya, image Docker TensorFlow, dan image container NVIDIA dikonfigurasi sebelumnya untuk penggunaan GPU.
Contoh Dockerfile yang di-build pada image Docker TensorFlow dengan Python 3.6 terlihat seperti contoh berikut:
ARG BASE=tensorflow/tensorflow:2.5.0-gpu
FROM $BASE
# Check that the chosen base image provides the expected version of Python interpreter.
ARG PY_VERSION=3.6
RUN [[ $PY_VERSION == `python -c 'import sys; print("%s.%s" % sys.version_info[0:2])'` ]] \
|| { echo "Could not find Python interpreter or Python version is different from ${PY_VERSION}"; exit 1; }
RUN pip install --upgrade pip \
&& pip install --no-cache-dir apache-beam[gcp]==2.29.0 \
# Verify that there are no conflicting dependencies.
&& pip check
# Copy the Apache Beam worker dependencies from the Beam Python 3.6 SDK image.
COPY --from=apache/beam_python3.6_sdk:2.29.0 /opt/apache/beam /opt/apache/beam
# Apache Beam worker expects pip at /usr/local/bin/pip by default.
# Some images have pip in a different location. If necessary, make a symlink.
# This line can be omitted in Beam 2.30.0 and later versions.
RUN [[ `which pip` == "/usr/local/bin/pip" ]] || ln -s `which pip` /usr/local/bin/pip
# Set the entrypoint to Apache Beam SDK worker launcher.
ENTRYPOINT [ "/opt/apache/beam/boot" ]
Saat Anda menggunakan
image Docker TensorFlow, gunakan
TensorFlow 2.5.0 atau yang lebih baru. Image Docker TensorFlow
sebelumnya menginstal paket tensorflow-gpu
, bukan paket
tensorflow
. Perbedaan ini tidak penting setelah rilis TensorFlow 2.1.0, tetapi beberapa paket downstream, seperti tfx
, memerlukan paket tensorflow
.
Ukuran penampung yang besar memperlambat waktu startup pekerja. Perubahan performa ini mungkin terjadi saat Anda menggunakan penampung seperti Deep Learning Containers.
Menginstal versi Python tertentu
Jika memiliki persyaratan ketat untuk versi Python, Anda dapat mem-build image dari image dasar NVIDIA yang memiliki library GPU yang diperlukan. Kemudian, instal interpretor Python.
Contoh berikut menunjukkan cara memilih image NVIDIA yang tidak menyertakan penafsir Python dari katalog image container CUDA. Sesuaikan contoh untuk menginstal versi Python 3 dan pip yang diperlukan. Contoh ini menggunakan TensorFlow. Oleh karena itu, saat memilih image, versi CUDA dan cuDNN dalam image dasar memenuhi persyaratan untuk versi TensorFlow.
Contoh Dockerfile terlihat seperti berikut:
# Select an NVIDIA base image with needed GPU stack from https://ngc.nvidia.com/catalog/containers/nvidia:cuda
FROM nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04
RUN \
# Add Deadsnakes repository that has a variety of Python packages for Ubuntu.
# See: https://launchpad.net/~deadsnakes/+archive/ubuntu/ppa
apt-key adv --keyserver keyserver.ubuntu.com --recv-keys F23C5A6CF475977595C89F51BA6932366A755776 \
&& echo "deb http://ppa.launchpad.net/deadsnakes/ppa/ubuntu focal main" >> /etc/apt/sources.list.d/custom.list \
&& echo "deb-src http://ppa.launchpad.net/deadsnakes/ppa/ubuntu focal main" >> /etc/apt/sources.list.d/custom.list \
&& apt-get update \
&& apt-get install -y curl \
python3.8 \
# With python3.8 package, distutils need to be installed separately.
python3-distutils \
&& rm -rf /var/lib/apt/lists/* \
&& update-alternatives --install /usr/bin/python python /usr/bin/python3.8 10 \
&& curl https://bootstrap.pypa.io/get-pip.py | python \
&& pip install --upgrade pip \
# Install Apache Beam and Python packages that will interact with GPUs.
&& pip install --no-cache-dir apache-beam[gcp]==2.29.0 tensorflow==2.4.0 \
# Verify that there are no conflicting dependencies.
&& pip check
# Copy the Apache Beam worker dependencies from the Beam Python 3.8 SDK image.
COPY --from=apache/beam_python3.8_sdk:2.29.0 /opt/apache/beam /opt/apache/beam
# Set the entrypoint to Apache Beam SDK worker launcher.
ENTRYPOINT [ "/opt/apache/beam/boot" ]
Pada beberapa distribusi OS, mungkin sulit untuk menginstal versi Python
tertentu menggunakan pengelola paket OS. Dalam hal ini, instal penafsir
Python dengan alat seperti Miniconda atau pyenv
.
Contoh Dockerfile terlihat seperti berikut:
FROM nvidia/cuda:11.0.3-cudnn8-runtime-ubuntu20.04
# The Python version of the Dockerfile must match the Python version you use
# to launch the Dataflow job.
ARG PYTHON_VERSION=3.8
# Update PATH so we find our new Conda and Python installations.
ENV PATH=/opt/python/bin:/opt/conda/bin:$PATH
RUN apt-get update \
&& apt-get install -y wget \
&& rm -rf /var/lib/apt/lists/* \
# The NVIDIA image doesn't come with Python pre-installed.
# We use Miniconda to install the Python version of our choice.
&& wget -q https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh \
&& bash Miniconda3-latest-Linux-x86_64.sh -b -p /opt/conda \
&& rm Miniconda3-latest-Linux-x86_64.sh \
# Create a new Python environment with needed version, and install pip.
&& conda create -y -p /opt/python python=$PYTHON_VERSION pip \
# Remove unused Conda packages, install necessary Python packages via pip
# to avoid mixing packages from pip and Conda.
&& conda clean -y --all --force-pkgs-dirs \
&& pip install --upgrade pip \
# Install Apache Beam and Python packages that will interact with GPUs.
&& pip install --no-cache-dir apache-beam[gcp]==2.29.0 tensorflow==2.4.0 \
# Verify that there are no conflicting dependencies.
&& pip check \
# Apache Beam worker expects pip at /usr/local/bin/pip by default.
# You can omit this line when using Beam 2.30.0 and later versions.
&& ln -s $(which pip) /usr/local/bin/pip
# Copy the Apache Beam worker dependencies from the Apache Beam SDK for Python 3.8 image.
COPY --from=apache/beam_python3.8_sdk:2.29.0 /opt/apache/beam /opt/apache/beam
# Set the entrypoint to Apache Beam SDK worker launcher.
ENTRYPOINT [ "/opt/apache/beam/boot" ]
Menggunakan image container Apache Beam
Anda dapat mengonfigurasi image container untuk penggunaan GPU tanpa menggunakan image yang telah dikonfigurasi sebelumnya. Pendekatan ini hanya direkomendasikan jika image yang telah dikonfigurasi sebelumnya tidak berfungsi untuk Anda. Untuk menyiapkan image container Anda sendiri, Anda perlu memilih library yang kompatibel dan mengonfigurasi lingkungan eksekusinya.
Contoh Dockerfile terlihat seperti berikut:
FROM apache/beam_python3.7_sdk:2.24.0
ENV INSTALLER_DIR="/tmp/installer_dir"
# The base image has TensorFlow 2.2.0, which requires CUDA 10.1 and cuDNN 7.6.
# You can download cuDNN from NVIDIA website
# https://developer.nvidia.com/cudnn
COPY cudnn-10.1-linux-x64-v7.6.0.64.tgz $INSTALLER_DIR/cudnn.tgz
RUN \
# Download CUDA toolkit.
wget -q -O $INSTALLER_DIR/cuda.run https://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_418.87.00_linux.run && \
# Install CUDA toolkit. Print logs upon failure.
sh $INSTALLER_DIR/cuda.run --toolkit --silent || (egrep '^\[ERROR\]' /var/log/cuda-installer.log && exit 1) && \
# Install cuDNN.
mkdir $INSTALLER_DIR/cudnn && \
tar xvfz $INSTALLER_DIR/cudnn.tgz -C $INSTALLER_DIR/cudnn && \
cp $INSTALLER_DIR/cudnn/cuda/include/cudnn*.h /usr/local/cuda/include && \
cp $INSTALLER_DIR/cudnn/cuda/lib64/libcudnn* /usr/local/cuda/lib64 && \
chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn* && \
rm -rf $INSTALLER_DIR
# A volume with GPU drivers will be mounted at runtime at /usr/local/nvidia.
ENV LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nvidia/lib64:/usr/local/cuda/lib64
Library driver di /usr/local/nvidia/lib64
harus dapat ditemukan di
penampung sebagai library bersama. Agar library driver dapat ditemukan,
konfigurasi variabel lingkungan LD_LIBRARY_PATH
.
Jika menggunakan TensorFlow, Anda harus memilih kombinasi versi CUDA Toolkit dan cuDNN yang kompatibel. Untuk informasi selengkapnya, baca Persyaratan software dan Konfigurasi build yang diuji.
Memilih jenis dan jumlah GPU untuk pekerja Dataflow
Untuk mengonfigurasi jenis dan jumlah GPU yang akan dilampirkan ke pekerja Dataflow, gunakan opsi layanan worker_accelerator
.
Pilih jenis dan jumlah GPU berdasarkan kasus penggunaan dan cara Anda berencana menggunakan GPU dalam pipeline.
Untuk mengetahui daftar jenis GPU yang didukung dengan Dataflow, lihat Dukungan Dataflow untuk GPU.
Menjalankan tugas dengan GPU
Pertimbangan untuk menjalankan tugas Dataflow dengan GPU mencakup hal berikut:
Karena penampung GPU biasanya berukuran besar, untuk menghindari kehabisan ruang disk, lakukan tindakan berikut:
- Tingkatkan ukuran boot disk default menjadi 50 gigabyte atau lebih.
Pertimbangkan jumlah proses yang secara serentak menggunakan GPU yang sama di VM pekerja. Kemudian, putuskan apakah Anda ingin membatasi GPU ke satu proses atau mengizinkan beberapa proses menggunakan GPU.
- Jika satu proses Apache Beam SDK dapat menggunakan sebagian besar memori GPU yang tersedia, misalnya dengan memuat model besar ke GPU, Anda mungkin ingin mengonfigurasi pekerja untuk menggunakan satu proses dengan menetapkan opsi pipeline
--experiments=no_use_multiple_sdk_containers
. Atau, gunakan pekerja dengan satu vCPU menggunakan jenis mesin kustom, sepertin1-custom-1-NUMBER_OF_MB
ataun1-custom-1-NUMBER_OF_MB-ext
, untuk memori yang diperluas. Untuk mengetahui informasi selengkapnya, lihat Menggunakan jenis mesin dengan lebih banyak memori per vCPU. - Jika GPU digunakan bersama oleh beberapa proses, aktifkan pemrosesan serentak di GPU bersama menggunakan Layanan Multi-Pemrosesan NVIDIA (MPS).
Untuk informasi latar belakang, lihat GPU dan paralelisme pekerja.
- Jika satu proses Apache Beam SDK dapat menggunakan sebagian besar memori GPU yang tersedia, misalnya dengan memuat model besar ke GPU, Anda mungkin ingin mengonfigurasi pekerja untuk menggunakan satu proses dengan menetapkan opsi pipeline
Untuk menjalankan tugas Dataflow dengan GPU, gunakan perintah berikut.
Untuk menggunakan penyesuaian yang tepat, gunakan
petunjuk resource accelerator
,
bukan
opsi layanan worker_accelerator
.
Python
python PIPELINE \
--runner "DataflowRunner" \
--project "PROJECT" \
--temp_location "gs://BUCKET/tmp" \
--region "REGION" \
--worker_harness_container_image "IMAGE" \
--disk_size_gb "DISK_SIZE_GB" \
--dataflow_service_options "worker_accelerator=type:GPU_TYPE;count:GPU_COUNT;install-nvidia-driver" \
--experiments "use_runner_v2"
Ganti kode berikut:
- PIPELINE: file kode sumber pipeline Anda
- PROJECT: nama project Google Cloud
- BUCKET: bucket Cloud Storage
- REGION: region Dataflow, misalnya,
us-central1
. Pilih `REGION` yang memiliki zona yang mendukungGPU_TYPE
. Dataflow secara otomatis menetapkan pekerja ke zona dengan GPU di region ini. - IMAGE: jalur Artifact Registry untuk image Docker Anda
- DISK_SIZE_GB: Ukuran boot disk untuk setiap VM pekerja, misalnya,
50
- GPU_TYPE: Jenis GPU
yang tersedia, misalnya,
nvidia-tesla-t4
. - GPU_COUNT: jumlah GPU yang akan dilampirkan ke setiap VM pekerja, misalnya,
1
Memverifikasi tugas Dataflow
Untuk mengonfirmasi bahwa tugas menggunakan VM pekerja dengan GPU, ikuti langkah-langkah berikut:
- Verifikasi bahwa pekerja Dataflow untuk tugas telah dimulai.
- Saat tugas berjalan, temukan VM pekerja yang terkait dengan tugas tersebut.
- Di perintah Search Products and Resources, tempel Job ID.
- Pilih instance VM Compute Engine yang terkait dengan tugas.
Anda juga dapat menemukan daftar semua instance yang berjalan di konsol Compute Engine.
Di konsol Google Cloud, buka halaman Instance VM.
Klik Detail instance VM.
Pastikan halaman detail memiliki bagian GPU dan GPU Anda terpasang.
Jika tugas Anda tidak diluncurkan dengan GPU, pastikan opsi layanan worker_accelerator
dikonfigurasi dengan benar dan terlihat di antarmuka pemantauan Dataflow di dataflow_service_options
. Urutan token dalam
metadata akselerator sangat penting.
Misalnya, opsi pipeline dataflow_service_options
di antarmuka pemantauan Dataflow mungkin terlihat seperti berikut:
['worker_accelerator=type:nvidia-tesla-t4;count:1;install-nvidia-driver', ...]
Melihat penggunaan GPU
Untuk melihat penggunaan GPU di VM pekerja, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka Monitoring atau gunakan tombol berikut:
Di panel navigasi Monitoring, klik Metrics Explorer.
Untuk Resource Type, tentukan
Dataflow Job
. Untuk metrik, tentukanGPU utilization
atauGPU memory utilization
, bergantung pada metrik yang ingin Anda pantau.
Untuk informasi selengkapnya, lihat Metrics Explorer.
Mengaktifkan Layanan Multi-Pemrosesan NVIDIA
Pada pipeline Python yang berjalan di pekerja dengan lebih dari satu vCPU, Anda dapat meningkatkan konkurensi untuk operasi GPU dengan mengaktifkan Layanan Multiproses (MPS) NVIDIA. Untuk mengetahui informasi selengkapnya dan langkah-langkah menggunakan MPS, lihat Meningkatkan performa pada GPU bersama menggunakan NVIDIA MPS.
Menggunakan GPU dengan Dataflow Prime
Dataflow Prime memungkinkan Anda meminta akselerator untuk langkah tertentu dalam pipeline. Untuk menggunakan GPU dengan
Dataflow Prime, jangan gunakan opsi pipeline
--dataflow-service_options=worker_accelerator
. Sebagai gantinya, minta GPU dengan petunjuk resource accelerator
.
Untuk informasi selengkapnya, lihat
Menggunakan petunjuk resource.
Memecahkan masalah tugas Dataflow
Jika Anda mengalami masalah saat menjalankan tugas Dataflow dengan GPU, lihat Memecahkan masalah tugas Dataflow GPU.
Langkah selanjutnya
- Pelajari lebih lanjut dukungan GPU di Dataflow.
- Jalankan pipeline inferensi machine learning Anda dengan jenis GPU NVIDIA L4.
- Pelajari artikel Memproses gambar satelit Landsat dengan GPU.