Bangun, optimalkan, dan skalakan workload pelatihan, inferensi, dan reinforcement learning untuk mendukung agen penalaran otonom
Ringkasan
TPU adalah akselerator yang dirancang khusus dan dibuat khusus untuk workload AI seperti agen, pembuatan kode, model bahasa besar, pembuatan konten media, ucapan sintetis, layanan visi, mesin pemberi saran, dan model personalisasi, serta lainnya. TPU mendukung Gemini, dan semua aplikasi yang didukung AI Google seperti Penelusuran, Foto, dan Maps, semuanya melayani lebih dari 1 Miliar pengguna.
Pergeseran ke AI Agentic memerlukan infrastruktur yang mampu melakukan penalaran multi-langkah dan reinforcement learning berkelanjutan. TPU memecahkan "hambatan memori" inferensi dengan menghosting cache KV besar-besaran sepenuhnya di silikon, menggunakan SRAM on-chip yang diperluas dengan TPU 8i. Dikombinasikan dengan mesin SparseCore kami untuk mengurangi beban tugas komunikasi, arsitektur ini mengurangi waktu tidak ada aktivitas inti. Hasilnya adalah performa latensi rendah dan dapat diprediksi yang mendukung reasoning loop yang kompleks.
Percepat waktu deployment Anda dengan mengurangi linimasa pelatihan untuk model termutakhir. Cloud TPU memaksimalkan goodput, sehingga hampir setiap siklus komputasi digunakan untuk pembelajaran aktif. Hal ini didukung oleh Inter-Chip Interconnect berkecepatan tinggi, Optical Circuit Switching, dan Virgo Network, sehingga akselerator beroperasi sebagai sistem terpadu yang sangat andal.
TPU direkayasa untuk meningkatkan nilai dan konsumsi daya dengan berfokus pada tuntutan komputasi AI, sehingga menghilangkan beban operasional yang ditemukan dalam arsitektur serbaguna. Pengelolaan daya terintegrasi menyesuaikan diri secara dinamis dengan volume permintaan real-time, sehingga memberikan performa per watt yang tinggi dan mendukung workload AI yang kompleks secara berkelanjutan.
Dibangun di ekosistem terbuka menggunakan library dan alat yang familier. Cloud TPU memberikan dukungan native dan berperforma tinggi untuk PyTorch dan JAX, serta mendukung mesin vLLM untuk inferensi cepat. Kelola dan skalakan deployment ini secara andal di seluruh cluster global dengan Google Kubernetes Engine (GKE).
Versi Cloud TPU
| Versi Cloud TPU | Deskripsi | Ketersediaan |
|---|---|---|
TPU 8i | TPU 8i dioptimalkan untuk inferensi dan pasca-pelatihan sekaligus memberikan peningkatan performa per dolar sebesar 80% dibandingkan generasi sebelumnya untuk inferensi latensi rendah untuk model MoE besar. | Segera hadir |
TPU 8t | TPU 8t dibuat untuk pelatihan awal berskala besar dan workload yang banyak menggunakan embedding dalam skala 9.600 chip dalam satu superpod, serta memberikan peningkatan performa per dolar hingga 2,7 kali lipat dibandingkan Ironwood untuk pelatihan berskala besar. | Segera hadir |
Ironwood | TPU generasi ke-7 yang hemat energi dan direkayasa untuk pelatihan, penalaran, dan inferensi berskala besar. Menampilkan 9.216 chip berpendingin cairan per pod, menyediakan 42,5 ExaFlop dan performa 4 kali lebih baik per chip dibandingkan Trillium. | Ironwood tersedia secara umum di Amerika Utara (Central) dan Eropa (region West) |
Trillium | TPU generasi keenam yang menampilkan peningkatan efisiensi energi dan performa komputasi puncak untuk pelatihan dan inferensi. Beroperasi dengan efisiensi energi 67% lebih tinggi dan memberikan performa komputasi puncak 4,7 kali lebih tinggi per chip dibandingkan dengan TPU v5e generasi sebelumnya. | Trillium tersedia secara umum di Amerika Utara (region US East), Eropa (region West), dan Asia (region Northeast) |
Informasi tambahan tentang versi Cloud TPU
TPU 8i
TPU 8i dioptimalkan untuk inferensi dan pasca-pelatihan sekaligus memberikan peningkatan performa per dolar sebesar 80% dibandingkan generasi sebelumnya untuk inferensi latensi rendah untuk model MoE besar.
Segera hadir
TPU 8t
TPU 8t dibuat untuk pelatihan awal berskala besar dan workload yang banyak menggunakan embedding dalam skala 9.600 chip dalam satu superpod, serta memberikan peningkatan performa per dolar hingga 2,7 kali lipat dibandingkan Ironwood untuk pelatihan berskala besar.
Segera hadir
Ironwood
TPU generasi ke-7 yang hemat energi dan direkayasa untuk pelatihan, penalaran, dan inferensi berskala besar. Menampilkan 9.216 chip berpendingin cairan per pod, menyediakan 42,5 ExaFlop dan performa 4 kali lebih baik per chip dibandingkan Trillium.
Ironwood tersedia secara umum di Amerika Utara (Central) dan Eropa (region West)
Trillium
TPU generasi keenam yang menampilkan peningkatan efisiensi energi dan performa komputasi puncak untuk pelatihan dan inferensi. Beroperasi dengan efisiensi energi 67% lebih tinggi dan memberikan performa komputasi puncak 4,7 kali lebih tinggi per chip dibandingkan dengan TPU v5e generasi sebelumnya.
Trillium tersedia secara umum di Amerika Utara (region US East), Eropa (region West), dan Asia (region Northeast)
Informasi tambahan tentang versi Cloud TPU
Cara Kerjanya
Lihatlah lebih dalam keajaiban Google Cloud TPU, termasuk tampilan dalam yang langka dari pusat data . Pelanggan menggunakan Cloud TPU untuk menjalankan beberapa workload AI berskala besar dan kapasitas tersebut berasal dari lebih dari sekadar chip. Dalam video ini, lihat komponen sistem TPU, termasuk jaringan pusat data, tombol sirkuit optik, sistem pendingin air, verifikasi keamanan biometrik, dan banyak lagi.
Mempercepat linimasa pra-pelatihan untuk model dasar yang besar. TPU 8t memberikan daya komputasi berperforma tinggi dalam satu pod dan dapat diskalakan melalui jaringan Virgo. Dipadukan dengan akses penyimpanan cepat dan isolasi NUMA yang didukung Axion, arsitektur ini mencapai Goodput yang tinggi, sehingga memastikan siklus komputasi digunakan untuk membangun model aktif, bukan tidak ada aktivitas selama transfer data atau reset hardware.
Mempercepat linimasa pra-pelatihan untuk model dasar yang besar. TPU 8t memberikan daya komputasi berperforma tinggi dalam satu pod dan dapat diskalakan melalui jaringan Virgo. Dipadukan dengan akses penyimpanan cepat dan isolasi NUMA yang didukung Axion, arsitektur ini mencapai Goodput yang tinggi, sehingga memastikan siklus komputasi digunakan untuk membangun model aktif, bukan tidak ada aktivitas selama transfer data atau reset hardware.
Bangun model dasar menjadi agen cerdas melalui alur kerja pasca-pelatihan yang intensif. Sistem TPU generasi ke-8 memproses uji coba reinforcement learning berkelanjutan dengan cepat, memberikan reward untuk jalur penalaran terbaik tanpa penundaan siklus yang umum terjadi pada generasi sebelumnya. Hal ini memungkinkan Anda menyesuaikan model dunia secara efisien, sehingga agen dapat menyempurnakan penalaran mereka di lingkungan simulasi sebelum dieksekusi di dunia nyata.
Bangun model dasar menjadi agen cerdas melalui alur kerja pasca-pelatihan yang intensif. Sistem TPU generasi ke-8 memproses uji coba reinforcement learning berkelanjutan dengan cepat, memberikan reward untuk jalur penalaran terbaik tanpa penundaan siklus yang umum terjadi pada generasi sebelumnya. Hal ini memungkinkan Anda menyesuaikan model dunia secara efisien, sehingga agen dapat menyempurnakan penalaran mereka di lingkungan simulasi sebelum dieksekusi di dunia nyata.
Menghilangkan batasan memori inferensi. TPU 8i memperluas SRAM on-chip dan memori bandwidth tinggi, yang menghosting cache KV berkapasitas tinggi sepenuhnya di silikon. Dengan menggunakan SparseCore-Collectives Acceleration Engine (SC-CAE) untuk mengurangi beban tugas komunikasi global, arsitektur ini secara signifikan mengurangi latensi on-chip, sehingga membebaskan core komputasi utama untuk pembuatan token murni dengan latensi rendah.
Menghilangkan batasan memori inferensi. TPU 8i memperluas SRAM on-chip dan memori bandwidth tinggi, yang menghosting cache KV berkapasitas tinggi sepenuhnya di silikon. Dengan menggunakan SparseCore-Collectives Acceleration Engine (SC-CAE) untuk mengurangi beban tugas komunikasi global, arsitektur ini secara signifikan mengurangi latensi on-chip, sehingga membebaskan core komputasi utama untuk pembuatan token murni dengan latensi rendah.
Kasus Bisnis
Agen penalaran otonom
TPU menyediakan bandwidth memori dan inferensi latensi rendah yang diperlukan untuk menjalankan reasoning loop multi-langkah yang berkelanjutan untuk asisten coding real-time, layanan pelanggan otonom, dan operasi keamanan.
Model dasar dan AI generatif multimodal
Dengan memberikan komputasi berkelanjutan dan berthroughput tinggi, TPU secara efisien membangun dan menyajikan model dasar yang besar di berbagai modalitas teks, gambar, audio, dan video.
Ilmu pengetahuan dan layanan kesehatan yang presisi
TPU mengelola matematika kompleks yang melibatkan banyak matriks untuk mempercepat simulasi yang intensif secara komputasi untuk biologi struktural, pengurutan genom, dan penemuan obat.
AI Fisik
Bangun agen fisik yang berinteraksi dan beradaptasi dengan dunia nyata. Simulasikan dan latih robot, agen otonom, dan mesin industri dengan lebih cepat dan efisien menggunakan data sintetis dan dunia nyata.