Tensor Processing Unit (TPU)

Dirancang untuk AI generasi berikutnya

Bangun, optimalkan, dan skalakan workload pelatihan, inferensi, dan reinforcement learning untuk mendukung agen penalaran otonom 

Ringkasan

Satu dekade Tensor Processing Unit (TPU)

TPU adalah akselerator yang dirancang khusus dan dibuat khusus untuk workload AI seperti agen, pembuatan kode, model bahasa besar, pembuatan konten media, ucapan sintetis, layanan visi, mesin pemberi saran, dan model personalisasi, serta lainnya. TPU mendukung Gemini, dan semua aplikasi yang didukung AI Google seperti Penelusuran, Foto, dan Maps, semuanya melayani lebih dari 1 Miliar pengguna.

Dibuat khusus untuk AI agentic

Pergeseran ke AI Agentic memerlukan infrastruktur yang mampu melakukan penalaran multi-langkah dan reinforcement learning berkelanjutan. TPU memecahkan "hambatan memori" inferensi dengan menghosting cache KV besar-besaran sepenuhnya di silikon, menggunakan SRAM on-chip yang diperluas dengan TPU 8i. Dikombinasikan dengan mesin SparseCore kami untuk mengurangi beban tugas komunikasi, arsitektur ini mengurangi waktu tidak ada aktivitas inti. Hasilnya adalah performa latensi rendah dan dapat diprediksi yang mendukung reasoning loop yang kompleks.

Performa tanpa kompromi

Percepat waktu deployment Anda dengan mengurangi linimasa pelatihan untuk model termutakhir. Cloud TPU memaksimalkan goodput, sehingga hampir setiap siklus komputasi digunakan untuk pembelajaran aktif. Hal ini didukung oleh Inter-Chip Interconnect berkecepatan tinggi, Optical Circuit Switching, dan Virgo Network, sehingga akselerator beroperasi sebagai sistem terpadu yang sangat andal.

Ekonomi berkelanjutan dalam skala besar

TPU direkayasa untuk meningkatkan nilai dan konsumsi daya dengan berfokus pada tuntutan komputasi AI, sehingga menghilangkan beban operasional yang ditemukan dalam arsitektur serbaguna. Pengelolaan daya terintegrasi menyesuaikan diri secara dinamis dengan volume permintaan real-time, sehingga memberikan performa per watt yang tinggi dan mendukung workload AI yang kompleks secara berkelanjutan.

Operasi yang terbuka, fleksibel, dan andal

Dibangun di ekosistem terbuka menggunakan library dan alat yang familier. Cloud TPU memberikan dukungan native dan berperforma tinggi untuk PyTorch dan JAX, serta mendukung mesin vLLM untuk inferensi cepat. Kelola dan skalakan deployment ini secara andal di seluruh cluster global dengan Google Kubernetes Engine (GKE).

Versi Cloud TPU

Versi Cloud TPUDeskripsiKetersediaan

TPU 8i

TPU 8i dioptimalkan untuk inferensi dan pasca-pelatihan sekaligus memberikan peningkatan performa per dolar sebesar 80% dibandingkan generasi sebelumnya untuk inferensi latensi rendah untuk model MoE besar.

Segera hadir

TPU 8t

TPU 8t dibuat untuk pelatihan awal berskala besar dan workload yang banyak menggunakan embedding dalam skala 9.600 chip dalam satu superpod, serta memberikan peningkatan performa per dolar hingga 2,7 kali lipat dibandingkan Ironwood untuk pelatihan berskala besar.

Segera hadir

Ironwood

TPU generasi ke-7 yang hemat energi dan direkayasa untuk pelatihan, penalaran, dan inferensi berskala besar. Menampilkan 9.216 chip berpendingin cairan per pod, menyediakan 42,5 ExaFlop dan performa 4 kali lebih baik per chip dibandingkan Trillium.

Ironwood  tersedia secara umum di Amerika Utara (Central) dan Eropa (region West)

Trillium

TPU generasi keenam yang menampilkan peningkatan efisiensi energi dan performa komputasi puncak untuk pelatihan dan inferensi. Beroperasi dengan efisiensi energi 67% lebih tinggi dan memberikan performa komputasi puncak 4,7 kali lebih tinggi per chip dibandingkan dengan TPU v5e generasi sebelumnya.

Trillium tersedia secara umum di Amerika Utara (region US East), Eropa (region West), dan Asia (region Northeast)

Informasi tambahan tentang versi Cloud TPU

TPU 8i

Deskripsi

TPU 8i dioptimalkan untuk inferensi dan pasca-pelatihan sekaligus memberikan peningkatan performa per dolar sebesar 80% dibandingkan generasi sebelumnya untuk inferensi latensi rendah untuk model MoE besar.

Ketersediaan

Segera hadir

TPU 8t

Deskripsi

TPU 8t dibuat untuk pelatihan awal berskala besar dan workload yang banyak menggunakan embedding dalam skala 9.600 chip dalam satu superpod, serta memberikan peningkatan performa per dolar hingga 2,7 kali lipat dibandingkan Ironwood untuk pelatihan berskala besar.

Ketersediaan

Segera hadir

Ironwood

Deskripsi

TPU generasi ke-7 yang hemat energi dan direkayasa untuk pelatihan, penalaran, dan inferensi berskala besar. Menampilkan 9.216 chip berpendingin cairan per pod, menyediakan 42,5 ExaFlop dan performa 4 kali lebih baik per chip dibandingkan Trillium.

Ketersediaan

Ironwood  tersedia secara umum di Amerika Utara (Central) dan Eropa (region West)

Trillium

Deskripsi

TPU generasi keenam yang menampilkan peningkatan efisiensi energi dan performa komputasi puncak untuk pelatihan dan inferensi. Beroperasi dengan efisiensi energi 67% lebih tinggi dan memberikan performa komputasi puncak 4,7 kali lebih tinggi per chip dibandingkan dengan TPU v5e generasi sebelumnya.

Ketersediaan

Trillium tersedia secara umum di Amerika Utara (region US East), Eropa (region West), dan Asia (region Northeast)

Informasi tambahan tentang versi Cloud TPU

Cara Kerjanya

Lihatlah lebih dalam keajaiban Google Cloud TPU, termasuk tampilan dalam yang langka dari pusat data . Pelanggan menggunakan Cloud TPU untuk menjalankan beberapa workload AI berskala besar dan kapasitas tersebut berasal dari lebih dari sekadar chip. Dalam video ini, lihat komponen sistem TPU, termasuk jaringan pusat data, tombol sirkuit optik, sistem pendingin air, verifikasi keamanan biometrik, dan banyak lagi.


Video Ganti dengan TPU.
Penggunaan Umum

Menjalankan workload prapelatihan AI berskala besar

Mempercepat waktu penyiapan produk untuk model termutakhir

Mempercepat linimasa pra-pelatihan untuk model dasar yang besar. TPU 8t memberikan daya komputasi berperforma tinggi dalam satu pod dan dapat diskalakan melalui jaringan Virgo. Dipadukan dengan akses penyimpanan cepat dan isolasi NUMA yang didukung Axion, arsitektur ini mencapai Goodput yang tinggi, sehingga memastikan siklus komputasi digunakan untuk membangun model aktif, bukan tidak ada aktivitas selama transfer data atau reset hardware.

Mempercepat waktu penyiapan produk untuk model termutakhir

Mempercepat linimasa pra-pelatihan untuk model dasar yang besar. TPU 8t memberikan daya komputasi berperforma tinggi dalam satu pod dan dapat diskalakan melalui jaringan Virgo. Dipadukan dengan akses penyimpanan cepat dan isolasi NUMA yang didukung Axion, arsitektur ini mencapai Goodput yang tinggi, sehingga memastikan siklus komputasi digunakan untuk membangun model aktif, bukan tidak ada aktivitas selama transfer data atau reset hardware.

Pembelajaran pascapelatihan dan reinforcement learning yang efisien

Menskalakan workload reinforcement learning secara efisien

Bangun model dasar menjadi agen cerdas melalui alur kerja pasca-pelatihan yang intensif. Sistem TPU generasi ke-8 memproses uji coba reinforcement learning berkelanjutan dengan cepat, memberikan reward untuk jalur penalaran terbaik tanpa penundaan siklus yang umum terjadi pada generasi sebelumnya. Hal ini memungkinkan Anda menyesuaikan model dunia secara efisien, sehingga agen dapat menyempurnakan penalaran mereka di lingkungan simulasi sebelum dieksekusi di dunia nyata.


Menskalakan workload reinforcement learning secara efisien

Bangun model dasar menjadi agen cerdas melalui alur kerja pasca-pelatihan yang intensif. Sistem TPU generasi ke-8 memproses uji coba reinforcement learning berkelanjutan dengan cepat, memberikan reward untuk jalur penalaran terbaik tanpa penundaan siklus yang umum terjadi pada generasi sebelumnya. Hal ini memungkinkan Anda menyesuaikan model dunia secara efisien, sehingga agen dapat menyempurnakan penalaran mereka di lingkungan simulasi sebelum dieksekusi di dunia nyata.


Workload inferensi AI berlatensi rendah dalam skala besar

Inferensi berperforma tinggi dan hemat biaya

Menghilangkan batasan memori inferensi. TPU 8i memperluas SRAM on-chip dan memori bandwidth tinggi, yang menghosting cache KV berkapasitas tinggi sepenuhnya di silikon. Dengan menggunakan SparseCore-Collectives Acceleration Engine (SC-CAE) untuk mengurangi beban tugas komunikasi global, arsitektur ini secara signifikan mengurangi latensi on-chip, sehingga membebaskan core komputasi utama untuk pembuatan token murni dengan latensi rendah.

Inferensi berperforma tinggi dan hemat biaya

Menghilangkan batasan memori inferensi. TPU 8i memperluas SRAM on-chip dan memori bandwidth tinggi, yang menghosting cache KV berkapasitas tinggi sepenuhnya di silikon. Dengan menggunakan SparseCore-Collectives Acceleration Engine (SC-CAE) untuk mengurangi beban tugas komunikasi global, arsitektur ini secara signifikan mengurangi latensi on-chip, sehingga membebaskan core komputasi utama untuk pembuatan token murni dengan latensi rendah.

Mulai bukti konsep Anda

Cobalah Cloud TPU secara gratis

Dapatkan pengantar singkat terkait cara menggunakan Cloud TPU

Menjalankan PyTorch di TPU

Menjalankan JAX di TPU

Menyajikan menggunakan vLLM di TPU

Kasus Bisnis


Agen penalaran otonom

TPU menyediakan bandwidth memori dan inferensi latensi rendah yang diperlukan untuk menjalankan reasoning loop multi-langkah yang berkelanjutan untuk asisten coding real-time, layanan pelanggan otonom, dan operasi keamanan.

Model dasar dan AI generatif multimodal

Dengan memberikan komputasi berkelanjutan dan berthroughput tinggi, TPU secara efisien membangun dan menyajikan model dasar yang besar di berbagai modalitas teks, gambar, audio, dan video.

Ilmu pengetahuan dan layanan kesehatan yang presisi

TPU mengelola matematika kompleks yang melibatkan banyak matriks untuk mempercepat simulasi yang intensif secara komputasi untuk biologi struktural, pengurutan genom, dan penemuan obat.



AI Fisik

Bangun agen fisik yang berinteraksi dan beradaptasi dengan dunia nyata. Simulasikan dan latih robot, agen otonom, dan mesin industri dengan lebih cepat dan efisien menggunakan data sintetis dan dunia nyata.