Inferensi vLLM di TPU v6e
Tutorial ini menunjukkan cara menjalankan inferensi vLLM di TPU v6e. Bagian ini juga menunjukkan cara menjalankan skrip benchmark untuk model Meta Llama-3.1 8B.
Untuk mulai menggunakan vLLM di TPU v6e, lihat panduan memulai vLLM.
Jika Anda menggunakan GKE, lihat juga tutorial GKE.
Sebelum memulai
Anda harus menandatangani perjanjian izin untuk menggunakan keluarga model Llama3 di repo HuggingFace. Buka https://huggingface.co/meta-llama/Llama-3.1-8B, isi perjanjian izin, dan tunggu hingga Anda disetujui.
Bersiap untuk menyediakan TPU v6e dengan 4 chip:
- Login ke Akun Google Anda. Jika Anda belum melakukannya, daftar untuk membuat akun baru.
- Di konsol Google Cloud, pilih atau buat project Google Cloud dari halaman pemilih project.
- Aktifkan penagihan untuk project Google Cloud Anda. Penagihan diperlukan untuk semua penggunaan Google Cloud .
- Instal komponen gcloud alpha.
Jalankan perintah berikut untuk menginstal versi terbaru komponen
gcloud
.gcloud components update
Aktifkan TPU API melalui perintah
gcloud
berikut menggunakan Cloud Shell. Anda juga dapat mengaktifkannya dari konsol .gcloud services enable tpu.googleapis.com
Buat identitas layanan untuk VM TPU.
gcloud alpha compute tpus tpu-vm service-identity create --zone=ZONE
Buat akun layanan TPU dan berikan akses ke layanan Google Cloud .
Akun layanan memungkinkan layanan TPU Google Cloud untuk mengakses layanan Google Cloud lainnya. Akun layanan yang dikelola pengguna direkomendasikan. Ikuti panduan ini untuk membuat dan memberikan peran. Peran berikut diperlukan:
- TPU Admin: Diperlukan untuk membuat TPU
- Storage Admin: Diperlukan untuk mengakses Cloud Storage
- Logs Writer: Diperlukan untuk menulis log dengan Logging API
- Monitoring Metric Writer: Diperlukan untuk menulis metrik ke Cloud Monitoring
Lakukan autentikasi dengan Google Cloud dan konfigurasikan project dan zona default untuk Google Cloud CLI.
gcloud auth login gcloud config set project PROJECT_ID gcloud config set compute/zone ZONE
Kapasitas aman
Hubungi tim penjualan atau akun Cloud TPU Anda untuk meminta kuota TPU dan mengajukan pertanyaan tentang kapasitas.
Menyediakan lingkungan Cloud TPU
Anda dapat menyediakan TPU v6e dengan GKE, dengan GKE dan XPK, atau sebagai resource dalam antrean.
Prasyarat
- Pastikan project Anda memiliki cukup kuota
TPUS_PER_TPU_FAMILY
, yang menentukan jumlah maksimum chip yang dapat Anda akses dalam projectGoogle Cloud . - Tutorial ini diuji dengan konfigurasi berikut:
- Python
3.10 or later
- Versi software harian:
- JAX harian
0.4.32.dev20240912
- LibTPU harian
0.1.dev20240912+nightly
- JAX harian
- Versi software stabil:
- JAX + JAX Lib dari
v0.4.35
- JAX + JAX Lib dari
- Python
- Pastikan project Anda memiliki cukup kuota TPU untuk:
- Kuota VM TPU
- Kuota Alamat IP
- Kuota Hyperdisk Balanced
- Izin project pengguna
- Jika Anda menggunakan GKE dengan XPK, lihat Izin Konsol Cloud di akun pengguna atau layanan untuk mengetahui izin yang diperlukan untuk menjalankan XPK.
Menyediakan TPU v6e
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --node-id TPU_NAME \ --project PROJECT_ID \ --zone ZONE \ --accelerator-type v6e-4 \ --runtime-version v2-alpha-tpuv6e \ --service-account SERVICE_ACCOUNT
Deskripsi flag perintah
Variabel | Deskripsi |
NODE_ID | ID TPU yang ditetapkan pengguna yang dibuat saat permintaan resource dalam antrean dialokasikan. |
PROJECT_ID | Nama project Google Cloud. Gunakan project yang ada atau buat project baru.> |
ZONA | Lihat dokumen Region dan zona TPU untuk zona yang didukung. |
ACCELERATOR_TYPE | Lihat dokumentasi Jenis Akselerator untuk jenis akselerator yang didukung. |
RUNTIME_VERSION | v2-alpha-tpuv6e
|
SERVICE_ACCOUNT | Ini adalah alamat email untuk akun layanan yang dapat Anda temukan di konsol
Google Cloud -> IAM -> Service Accounts
Misalnya: tpu-service-account@<your_project_ID>.iam.gserviceaccount.com.com |
Gunakan perintah list
atau describe
untuk membuat kueri status resource yang diantrekan.
gcloud alpha compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \
--project ${PROJECT_ID} --zone ${ZONE}
Untuk mengetahui daftar lengkap status permintaan resource yang diantrekan, lihat dokumentasi Resource yang Diantrekan.
Menghubungkan ke TPU menggunakan SSH
gcloud compute tpus tpu-vm ssh TPU_NAME
Menginstal dependensi
Buat direktori untuk Miniconda:
mkdir -p ~/miniconda3
Download skrip penginstal Miniconda:
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
Instal Miniconda:
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
Hapus skrip penginstal Miniconda:
rm -rf ~/miniconda3/miniconda.sh
Tambahkan Miniconda ke variabel
PATH
Anda:export PATH="$HOME/miniconda3/bin:$PATH"
Muat ulang
~/.bashrc
untuk menerapkan perubahan pada variabelPATH
:source ~/.bashrc
Buat lingkungan Conda:
conda create -n vllm python=3.10 -y conda activate vllm
Clone repositori vLLM dan buka direktori vLLM:
git clone https://github.com/vllm-project/vllm.git && cd vllm
Bersihkan paket torch dan torch-xla yang ada:
pip uninstall torch torch-xla -y
Instal dependensi build lainnya:
pip install -r requirements-tpu.txt VLLM_TARGET_DEVICE="tpu" python setup.py develop sudo apt-get install libopenblas-base libopenmpi-dev libomp-dev
Mendapatkan akses ke model
Buat token Hugging Face baru jika Anda belum memilikinya:
- Klik Profil Anda > Setelan > Token Akses.
- Pilih New Token.
- Tentukan Nama pilihan Anda dan Peran dengan setidaknya izin
Read
. - Pilih Buat token.
Salin token yang dihasilkan ke papan klip Anda, tetapkan sebagai variabel lingkungan, lalu autentikasi dengan huggingface-cli:
export TOKEN=YOUR_TOKEN git config --global credential.helper store huggingface-cli login --token $TOKEN
Mendownload data tolok ukur
Buat direktori
/data
dan download set data ShareGPT dari Hugging Face.mkdir ~/data && cd ~/data wget https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/resolve/main/ShareGPT_V3_unfiltered_cleaned_split.json
Meluncurkan server vLLM
Perintah berikut mendownload bobot model dari
Hugging Face Model Hub
ke direktori /tmp
VM TPU, mengompilasi berbagai bentuk input terlebih dahulu, dan
menulis kompilasi model ke ~/.cache/vllm/xla_cache
.
Untuk mengetahui detail selengkapnya, lihat dokumen vLLM.
cd ~/vllm
vllm serve "meta-llama/Meta-Llama-3.1-8B" --download_dir /tmp --num-scheduler-steps 4 --swap-space 16 --disable-log-requests --tensor_parallel_size=4 --max-model-len=2048 &> serve.log &
Menjalankan benchmark vLLM
Jalankan skrip benchmark vLLM:
python benchmarks/benchmark_serving.py \
--backend vllm \
--model "meta-llama/Meta-Llama-3.1-8B" \
--dataset-name sharegpt \
--dataset-path ~/data/ShareGPT_V3_unfiltered_cleaned_split.json \
--num-prompts 1000
Pembersihan
Hapus TPU:
gcloud compute tpus queued-resources delete QUEUED_RESOURCE_ID \ --project PROJECT_ID \ --zone ZONE \ --force \ --async