Dataproc memberikan kemampuan bagi unit pemrosesan grafis (GPU) untuk dihubungkan ke node Compute Engine master dan pekerja di cluster Dataproc. Anda dapat menggunakan GPU ini untuk mempercepat beban kerja tertentu pada instance Anda, seperti machine learning dan pemrosesan data.
Untuk mengetahui informasi selengkapnya tentang hal yang dapat Anda lakukan dengan GPU dan jenis hardware GPU yang tersedia, baca GPU di Compute Engine.
Sebelum memulai
- GPU memerlukan driver dan software khusus. Item ini belum diinstal sebelumnya di cluster Dataproc.
- Baca harga GPU di Compute Engine untuk memahami biaya penggunaan GPU di instance Anda.
- Baca artikel pembatasan untuk instance dengan GPU guna mempelajari perbedaan fungsi instance ini dengan instance non-GPU.
- Periksa halaman kuota project Anda untuk memastikan bahwa Anda memiliki kuota GPU yang memadai (
NVIDIA_K80_GPUS
,NVIDIA_P100_GPUS
, atauNVIDIA_V100_GPUS
) yang tersedia di project Anda. Jika GPU tidak tercantum di halaman kuota atau Anda memerlukan kuota GPU tambahan, minta penambahan kuota.
Jenis GPU
Node Dataproc mendukung jenis GPU berikut. Anda harus menentukan jenis GPU saat menambahkan GPU ke cluster Dataproc.
nvidia-tesla-l4
- NVIDIA® Tesla® L4nvidia-tesla-a100
- NVIDIA® Tesla® A100nvidia-tesla-k80
- NVIDIA® Tesla® K80nvidia-tesla-p100
- NVIDIA® Tesla® P100nvidia-tesla-v100
- NVIDIA® Tesla® V100nvidia-tesla-p4
- NVIDIA® Tesla® P4nvidia-tesla-t4
- NVIDIA® Tesla® T4nvidia-tesla-p100-vws
- Workstation Virtual NVIDIA® Tesla® P100nvidia-tesla-p4-vws
- Workstation Virtual NVIDIA® Tesla® P4nvidia-tesla-t4-vws
- Workstation Virtual NVIDIA® Tesla® T4
Memasang GPU ke cluster
gcloud
Pasang GPU ke node pekerja master, primer, dan sekunder di cluster Dataproc saat membuat cluster menggunakan flag ‑‑master-accelerator
, ‑‑worker-accelerator
, dan ‑‑secondary-worker-accelerator
. Flag ini menggunakan dua nilai berikut:
- jenis GPU yang terpasang pada sebuah {i>node<i}, dan
- jumlah GPU yang dipasang ke {i>node<i}.
Jenis GPU diperlukan, dan jumlah GPU bersifat opsional (defaultnya adalah 1 GPU).
Contoh:
gcloud dataproc clusters create cluster-name \ --region=region \ --master-accelerator type=nvidia-tesla-k80 \ --worker-accelerator type=nvidia-tesla-k80,count=4 \ --secondary-worker-accelerator type=nvidia-tesla-k80,count=4 \ ... other flags
Untuk menggunakan GPU di cluster, Anda harus menginstal driver GPU.
REST API
Lampirkan GPU ke node pekerja master, primer, dan sekunder di cluster Dataproc dengan mengisi kolom acceleratorTypeUri
dan acceleratorCount
InstanceGroupConfig.AcceleratorConfig sebagai bagian dari permintaan API cluster.create.
Konsol
Klik PLATFORM CPU DAN GPU→GPU→TAMBAHKAN GPU di bagian node master dan worker panel Konfigurasi node di halaman Buat cluster di Konsol Google Cloud untuk menentukan jumlah GPU dan jenis GPU untuk node.
Menginstal driver GPU
Driver GPU diperlukan untuk menggunakan GPU apa pun yang terpasang ke node Dataproc. Anda dapat menginstal driver GPU dengan mengikuti petunjuk untuk tindakan inisialisasi ini, yang tercantum di bawah.
Memverifikasi penginstalan driver GPU
Setelah selesai menginstal driver GPU pada node Dataproc, Anda dapat memverifikasi bahwa driver berfungsi dengan benar. Jalankan SSH ke node master cluster Dataproc Anda dan jalankan perintah berikut:
nvidia-smi
Jika driver berfungsi dengan baik, output akan menampilkan versi driver dan statistik GPU (lihat Memverifikasi penginstalan driver GPU).
Konfigurasi Spark
Saat mengirimkan tugas ke Spark, Anda dapat menggunakan properti properti lingkungan runtime konfigurasi Spark spark.executorEnv
dengan variabel lingkungan LD_PRELOAD
untuk melakukan pramuat library yang diperlukan.
Contoh:
gcloud dataproc jobs submit spark --cluster=CLUSTER_NAME \ --region=REGION \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --properties=spark.executorEnv.LD_PRELOAD=libnvblas.so,spark.task.resource.gpu.amount=1,spark.executor.resource.gpu.amount=1,spark.executor.resource.gpu.discoveryScript=/usr/lib/spark/scripts/gpu/getGpusResources.sh
Contoh tugas GPU
Anda dapat menguji GPU di Dataproc dengan menjalankan salah satu tugas berikut, yang akan berguna jika dijalankan dengan GPU:
- Jalankan salah satu contoh Spark ML.
- Jalankan contoh berikut dengan
spark-shell
untuk menjalankan komputasi matriks:
import org.apache.spark.mllib.linalg._ import org.apache.spark.mllib.linalg.distributed._ import java.util.Random def makeRandomSquareBlockMatrix(rowsPerBlock: Int, nBlocks: Int): BlockMatrix = { val range = sc.parallelize(1 to nBlocks) val indices = range.cartesian(range) return new BlockMatrix( indices.map( ij => (ij, Matrices.rand(rowsPerBlock, rowsPerBlock, new Random()))), rowsPerBlock, rowsPerBlock, 0, 0) } val N = 1024 * 4 val n = 2 val mat1 = makeRandomSquareBlockMatrix(N, n) val mat2 = makeRandomSquareBlockMatrix(N, n) val mat3 = mat1.multiply(mat2) mat3.blocks.persist.count println("Processing complete!")