Menyajikan model terbuka menggunakan vLLM TPU di Cloud TPU

vLLM TPU adalah framework penayangan yang sangat efisien untuk model bahasa besar (LLM) yang dioptimalkan untuk hardware Cloud TPU. Plugin ini didukung oleh tpu-inference, yang merupakan plugin hardware baru yang ekspresif dan canggih yang menyatukan JAX dan Pytorch dalam satu jalur penyusunan.

Baca selengkapnya tentang framework ini di postingan blog vLLM TPU.

TPU vLLM tersedia di Model Garden melalui deployment dan notebook sekali klik.

Mulai menggunakan Model Garden

Container penayangan vLLM TPU terintegrasi di Model Garden. Anda dapat mengakses solusi penayangan ini melalui deployment sekali klik dan contoh notebook Colab Enterprise untuk berbagai model.

Menggunakan deployment sekali klik

Anda dapat men-deploy endpoint Vertex AI kustom dengan TPU vLLM melalui kartu model untuk model berikut:

Langkah-langkah:

  1. Buka halaman kartu model (seperti google/gemma-3-27b-it) lalu klik Deploy model untuk membuka panel deployment.

  2. Pilih varian model yang ingin Anda deploy di bagian ID Resource.

  3. Untuk varian model yang ingin Anda deploy, klik Edit setelan dan pilih opsi vLLM TPU di bagian Spesifikasi mesin untuk deployment.

  4. Klik Deploy di bagian bawah panel untuk memulai proses deployment. Anda akan menerima notifikasi email saat endpoint siap.

Menggunakan notebook Colab Enterprise

Untuk fleksibilitas dan penyesuaian, Anda dapat menggunakan contoh notebook Colab Enterprise untuk men-deploy endpoint Vertex AI dengan TPU vLLM menggunakan Vertex AI SDK untuk Python.

  1. Buka notebook TPU vLLM di Colab Enterprise.

  2. Jalankan notebook untuk men-deploy model dengan vLLM TPU dan mengirim permintaan prediksi ke endpoint.

Meminta kuota Cloud TPU

Di Model Garden, kuota defaultnya adalah 16 chip Cloud TPU v6e di region europe-west4. Kuota ini berlaku untuk deployment sekali klik dan deployment notebook Colab Enterprise. Jika Anda memiliki kuota default 0 atau ingin meminta lebih banyak kuota, lihat Meminta penyesuaian kuota.