Halaman ini diterjemahkan oleh Cloud Translation API.

Menyajikan Gemma menggunakan TPU di GKE dengan JetStream

Autopilot Standard

Tutorial ini menunjukkan cara menayangkan model bahasa besar (LLM) Gemma menggunakan Unit Pemrosesan Tensor (TPU) di Google Kubernetes Engine (GKE). Anda men-deploy container siap pakai dengan JetStream dan MaxText ke GKE. Anda juga mengonfigurasi GKE untuk memuat bobot Gemma 7B dari Cloud Storage saat runtime

Tutorial ini ditujukan untuk Engineer machine learning (ML), Admin dan operator platform, serta Spesialis data dan AI yang tertarik untuk menggunakan kemampuan orkestrasi container Kubernetes dalam menayangkan LLM. Untuk mempelajari lebih lanjut peran umum dan contoh tugas yang kami referensikan dalam Google Cloud konten, lihat Peran dan tugas pengguna GKE umum.

Sebelum membaca halaman ini, pastikan Anda memahami hal-hal berikut:

Mode Autopilot dan mode Standard
Ketersediaan versi TPU saat ini dengan arsitektur sistem Cloud TPU
TPU di GKE

Latar belakang

Bagian ini menjelaskan teknologi utama yang digunakan dalam tutorial ini.

Gemma

Gemma adalah serangkaian model kecerdasan buatan (AI) generatif yang ringan dan tersedia secara terbuka yang dirilis dengan lisensi terbuka. Model AI ini tersedia untuk dijalankan di aplikasi, hardware, perangkat seluler, atau layanan yang dihosting. Anda dapat menggunakan model Gemma untuk pembuatan teks, tetapi Anda juga dapat menyesuaikan model ini untuk tugas khusus.

Untuk mempelajari lebih lanjut, lihat dokumentasi Gemma.

TPU

TPU adalah sirkuit terintegrasi khusus aplikasi (ASIC) yang dikembangkan khusus oleh Google dan digunakan untuk mempercepat model machine learning dan AI yang dibuat menggunakan framework seperti TensorFlow, PyTorch, dan JAX.

Tutorial ini membahas cara menayangkan model Gemma 7B. GKE men-deploy model pada node TPUv5e host tunggal dengan topologi TPU yang dikonfigurasi berdasarkan persyaratan model untuk menyajikan perintah dengan latensi rendah.

JetStream

JetStream adalah framework penayangan inferensi open source yang dikembangkan oleh Google. JetStream memungkinkan inferensi berperforma tinggi, throughput tinggi, dan dioptimalkan untuk memori di TPU dan GPU. Framework ini menyediakan pengoptimalan performa lanjutan, termasuk teknik pengelompokan berkelanjutan dan kuantisasi, untuk memfasilitasi deployment LLM. JetStream memungkinkan penayangan PyTorch/XLA dan JAX TPU untuk mencapai performa yang optimal.

Untuk mempelajari lebih lanjut pengoptimalan ini, lihat repositori project JetStream PyTorch dan JetStream MaxText.

MaxText

MaxText adalah implementasi LLM JAX yang berperforma tinggi, skalabel, dan dapat disesuaikan, yang dibangun di atas library JAX open source seperti Flax, Orbax, dan Optax. Implementasi LLM khusus dekoder MaxText ditulis dalam Python. Hal ini memanfaatkan compiler XLA secara intensif untuk mencapai performa tinggi tanpa perlu membuat kernel kustom.

Untuk mempelajari lebih lanjut model dan ukuran parameter terbaru yang didukung MaxText, lihat repositori project MaxText.

Tujuan

Siapkan cluster GKE Autopilot atau Standard dengan topologi TPU yang direkomendasikan berdasarkan karakteristik model.
Deploy komponen JetStream di GKE.
Dapatkan dan publikasikan model yang disesuaikan dengan instruksi Gemma 7B.
Menyajikan dan berinteraksi dengan model yang dipublikasikan.

Arsitektur

Bagian ini menjelaskan arsitektur GKE yang digunakan dalam tutorial ini. Arsitektur ini terdiri dari cluster GKE Autopilot atau Standard yang menyediakan TPU dan menghosting komponen JetStream untuk men-deploy dan menyajikan model.

Diagram berikut menunjukkan komponen arsitektur ini:

Arsitektur cluster GKE dengan node pool TPU host tunggal yang berisi komponen Maxengine dan Max HTTP.

Arsitektur ini mencakup komponen berikut:

Cluster regional GKE Autopilot atau Standard.
Dua node pool slice TPU host tunggal yang menghosting deployment JetStream.
Komponen Service menyebarkan traffic masuk ke semua replika JetStream HTTP.
JetStream HTTP adalah server HTTP yang menerima permintaan sebagai wrapper ke format yang diperlukan JetStream dan mengirimkannya ke klien GRPC JetStream.
Maxengine adalah server JetStream yang melakukan inferensi dengan batch berkelanjutan.

Sebelum memulai

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Enable the API