Tensor Processing Unit (TPU)

Progettato per l'AI di nuova generazione

Crea, ottimizza e scala i carichi di lavoro di addestramento, inferenza e apprendimento per rinforzo per potenziare gli agenti di ragionamento autonomi 

Panoramica

Un decennio di Tensor Processing Unit (TPU)

Le TPU sono acceleratori progettati su misura e creati appositamente per i workload di AI come agenti, generazione di codice, modelli linguistici di grandi dimensioni, generazione di contenuti multimediali, sintesi vocale, servizi di visione artificiale, motori per suggerimenti e modelli di personalizzazione, tra gli altri. Le TPU sono alla base di Gemini e di tutte le applicazioni basate sull'AI di Google, come la Ricerca, Foto e Maps, che servono oltre 1 miliardo di utenti.

Progettato appositamente per l'AI agentica

Il passaggio all'AI agentica richiede un'infrastruttura in grado di eseguire ragionamenti multi-step e apprendimento per rinforzo continuo. Le TPU superano il "muro della memoria" dell'inferenza ospitando enormi cache KV interamente su silicio, utilizzando SRAM on-chip espansa con TPU 8i. In combinazione con il nostro motore SparseCore per scaricare le attività di comunicazione, questa architettura riduce il tempo di inattività del core. Il risultato sono prestazioni prevedibili a bassa latenza che alimentano complessi cicli di ragionamento.

Prestazioni senza compromessi

Accelera i tempi di deployment riducendo le tempistiche di addestramento per i modelli di frontiera. Le Cloud TPU massimizzano il goodput, garantendo che quasi ogni ciclo di calcolo venga speso per l'apprendimento attivo. Ciò è supportato da un'interconnessione inter-chip ad alta velocità, dalla commutazione di circuiti ottici e dalla rete Virgo, in modo che gli acceleratori funzionino come un sistema unificato altamente affidabile.

Economia sostenibile su larga scala

Le TPU sono progettate per migliorare il valore e il consumo energetico concentrandosi sulle esigenze di calcolo dell'AI, eliminando l'overhead operativo presente nelle architetture multiuso. La gestione dell'alimentazione integrata si adatta dinamicamente al volume delle richieste in tempo reale, offrendo un elevato rapporto prestazioni/watt e supportando in modo sostenibile carichi di lavoro di AI complessi.

Operazioni aperte, flessibili e affidabili

Crea su un ecosistema aperto utilizzando librerie e strumenti familiari. Le Cloud TPU forniscono supporto nativo ad alte prestazioni per PyTorch e JAX e supportano il motore vLLM per un'inferenza rapida. Gestisci e scala questi deployment in modo affidabile tra cluster globali con Google Kubernetes Engine (GKE).

Versioni di Cloud TPU

Versione Cloud TPUDescrizioneDisponibilità

TPU 8i

TPU 8i è ottimizzata per la post-formazione e l'inferenza, fornendo al contempo un miglioramento dell'80% delle prestazioni per dollaro rispetto alle generazioni precedenti per l'inferenza a bassa latenza per i grandi modelli MoE.

Disponibile a breve

TPU 8t

TPU 8t è progettato per il pre-addestramento su larga scala e per i carichi di lavoro con molti incorporamenti su una scala di 9600 chip in un singolo superpod e offre un miglioramento delle prestazioni per dollaro fino a 2,7 volte rispetto a Ironwood per l'addestramento su larga scala.

Disponibile a breve

Ironwood

TPU di settima generazione a efficienza energetica progettata per addestramento, ragionamento e inferenza su larga scala. Dispone di 9216 chip raffreddati a liquido per pod,fornisce 42, 5 ExaFlops e prestazioni per chip 4 volte migliori rispetto a Trillium.

Ironwood  è in disponibilità generale in Nord America (centrale) ed Europa (regione occidentale)

Trillium

TPU di sesta generazione con efficienza energetica e prestazioni di calcolo di picco migliorate per l'addestramento e l'inferenza. Funziona con un'efficienza energetica superiore del 67% e offre prestazioni di calcolo di picco per chip 4,7 volte superiori rispetto alla precedente generazione di TPU v5e.

Trillium è in disponibilità generale in Nord America (regione degli Stati Uniti orientali), Europa (regione occidentale) e Asia (regione nord-orientale)

Informazioni aggiuntive sulle versioni di Cloud TPU

TPU 8i

Descrizione

TPU 8i è ottimizzata per la post-formazione e l'inferenza, fornendo al contempo un miglioramento dell'80% delle prestazioni per dollaro rispetto alle generazioni precedenti per l'inferenza a bassa latenza per i grandi modelli MoE.

Disponibilità

Disponibile a breve

TPU 8t

Descrizione

TPU 8t è progettato per il pre-addestramento su larga scala e per i carichi di lavoro con molti incorporamenti su una scala di 9600 chip in un singolo superpod e offre un miglioramento delle prestazioni per dollaro fino a 2,7 volte rispetto a Ironwood per l'addestramento su larga scala.

Disponibilità

Disponibile a breve

Ironwood

Descrizione

TPU di settima generazione a efficienza energetica progettata per addestramento, ragionamento e inferenza su larga scala. Dispone di 9216 chip raffreddati a liquido per pod,fornisce 42, 5 ExaFlops e prestazioni per chip 4 volte migliori rispetto a Trillium.

Disponibilità

Ironwood  è in disponibilità generale in Nord America (centrale) ed Europa (regione occidentale)

Trillium

Descrizione

TPU di sesta generazione con efficienza energetica e prestazioni di calcolo di picco migliorate per l'addestramento e l'inferenza. Funziona con un'efficienza energetica superiore del 67% e offre prestazioni di calcolo di picco per chip 4,7 volte superiori rispetto alla precedente generazione di TPU v5e.

Disponibilità

Trillium è in disponibilità generale in Nord America (regione degli Stati Uniti orientali), Europa (regione occidentale) e Asia (regione nord-orientale)

Informazioni aggiuntive sulle versioni di Cloud TPU

Come funziona

Dai un'occhiata all'interno delle Google Cloud TPU, inclusa una rara vista dall'interno dei data center . I clienti utilizzano le Cloud TPU per eseguire alcuni dei carichi di lavoro di IA su larga scala e questa capacità deriva da molto più di un semplice chip. In questo video, dai un'occhiata ai componenti del sistema TPU, tra cui networking di data center, interruttori di circuiti ottici, sistemi di raffreddamento ad acqua, verifica della sicurezza biometrica e altro ancora.


Sostituire con video TPU!
Utilizzi comuni

Esegui workload per il pre-addestramento dell'AI su larga scala

Accelerare il time-to-market per i modelli pioneristici

Riduci le tempistiche di pre-addestramento per i modelli di base di grandi dimensioni. TPU 8t fornisce potenza di calcolo ad alte prestazioni all'interno di un singolo pod e si scala tramite la rete Virgo. Grazie all'accesso rapido all'archiviazione e all'isolamento NUMA basato su Axion, l'architettura raggiunge un'elevata velocità effettiva, garantendo che i cicli di calcolo vengano spesi per la creazione di modelli attivi anziché rimanere inattivi durante il trasferimento dei dati o i ripristini hardware.

Accelerare il time-to-market per i modelli pioneristici

Riduci le tempistiche di pre-addestramento per i modelli di base di grandi dimensioni. TPU 8t fornisce potenza di calcolo ad alte prestazioni all'interno di un singolo pod e si scala tramite la rete Virgo. Grazie all'accesso rapido all'archiviazione e all'isolamento NUMA basato su Axion, l'architettura raggiunge un'elevata velocità effettiva, garantendo che i cicli di calcolo vengano spesi per la creazione di modelli attivi anziché rimanere inattivi durante il trasferimento dei dati o i ripristini hardware.

Post-addestramento e apprendimento per rinforzo efficienti

Scalare in modo efficiente i workload di apprendimento per rinforzo

Integra i modelli di base in agenti intelligenti attraverso flussi di lavoro intensivi post-addestramento. L'ottava generazione del sistema TPU elabora rapidamente prove di apprendimento per rinforzo continuo, premiando i migliori percorsi di ragionamento senza i ritardi di ciclo comuni alle generazioni precedenti. Ciò consente di ottimizzare in modo efficiente i modelli del mondo, permettendo agli agenti di perfezionare il loro ragionamento in ambienti simulati prima di eseguire nel mondo reale.


Scalare in modo efficiente i workload di apprendimento per rinforzo

Integra i modelli di base in agenti intelligenti attraverso flussi di lavoro intensivi post-addestramento. L'ottava generazione del sistema TPU elabora rapidamente prove di apprendimento per rinforzo continuo, premiando i migliori percorsi di ragionamento senza i ritardi di ciclo comuni alle generazioni precedenti. Ciò consente di ottimizzare in modo efficiente i modelli del mondo, permettendo agli agenti di perfezionare il loro ragionamento in ambienti simulati prima di eseguire nel mondo reale.


Workload di inferenza AI a bassa latenza su larga scala

Inferenza ad alte prestazioni ed economicamente vantaggiosa

Supera il limite della memoria di inferenza. TPU 8i espande la SRAM on-chip e la memoria a larghezza di banda elevata, ospitando cache KV ad alta capacità interamente su silicio. Utilizzando lo SparseCore-Collectives Acceleration Engine (SC-CAE) per scaricare le attività di comunicazione globale, questa architettura riduce significativamente la latenza on-chip, liberando i core di calcolo principali per la generazione di token puri a bassa latenza.

Inferenza ad alte prestazioni ed economicamente vantaggiosa

Supera il limite della memoria di inferenza. TPU 8i espande la SRAM on-chip e la memoria a larghezza di banda elevata, ospitando cache KV ad alta capacità interamente su silicio. Utilizzando lo SparseCore-Collectives Acceleration Engine (SC-CAE) per scaricare le attività di comunicazione globale, questa architettura riduce significativamente la latenza on-chip, liberando i core di calcolo principali per la generazione di token puri a bassa latenza.

Inizia la tua proof of concept

Prova Cloud TPU senza costi

Leggi una rapida introduzione all'uso delle Cloud TPU

Esegui PyTorch sulle TPU

Esecuzione di JAX sulle TPU

Erogazione con vLLM su TPU

Business case


Agenti di ragionamento autonomi

Le TPU forniscono la larghezza di banda della memoria e l'inferenza a bassa latenza necessarie per eseguire cicli di ragionamento multi-step continui per assistenti alla programmazione in tempo reale, assistenza clienti autonoma e operazioni di sicurezza.

foundation model e AI generativa multimodale

Fornendo un calcolo continuo con throughput elevato, le TPU creano e distribuiscono in modo efficiente foundation model di grandi dimensioni in modalità testo, immagine, audio e video.

Scienza di precisione e sanità

Le TPU gestiscono la matematica complessa e basata su matrici per accelerare le simulazioni a elevato consumo di risorse di calcolo per la biologia strutturale, il sequenziamento genomico e la ricerca farmaceutica.



AI fisica

Crea agenti fisici in grado di interagire e adattarsi al mondo reale. Simula e addestra robot, agenti autonomi e macchine industriali in modo più rapido ed efficiente con dati sintetici e reali.

Google Cloud