Crea, ottimizza e scala i carichi di lavoro di addestramento, inferenza e apprendimento per rinforzo per potenziare gli agenti di ragionamento autonomi
Panoramica
Le TPU sono acceleratori progettati su misura e creati appositamente per i workload di AI come agenti, generazione di codice, modelli linguistici di grandi dimensioni, generazione di contenuti multimediali, sintesi vocale, servizi di visione artificiale, motori per suggerimenti e modelli di personalizzazione, tra gli altri. Le TPU sono alla base di Gemini e di tutte le applicazioni basate sull'AI di Google, come la Ricerca, Foto e Maps, che servono oltre 1 miliardo di utenti.
Il passaggio all'AI agentica richiede un'infrastruttura in grado di eseguire ragionamenti multi-step e apprendimento per rinforzo continuo. Le TPU superano il "muro della memoria" dell'inferenza ospitando enormi cache KV interamente su silicio, utilizzando SRAM on-chip espansa con TPU 8i. In combinazione con il nostro motore SparseCore per scaricare le attività di comunicazione, questa architettura riduce il tempo di inattività del core. Il risultato sono prestazioni prevedibili a bassa latenza che alimentano complessi cicli di ragionamento.
Accelera i tempi di deployment riducendo le tempistiche di addestramento per i modelli di frontiera. Le Cloud TPU massimizzano il goodput, garantendo che quasi ogni ciclo di calcolo venga speso per l'apprendimento attivo. Ciò è supportato da un'interconnessione inter-chip ad alta velocità, dalla commutazione di circuiti ottici e dalla rete Virgo, in modo che gli acceleratori funzionino come un sistema unificato altamente affidabile.
Le TPU sono progettate per migliorare il valore e il consumo energetico concentrandosi sulle esigenze di calcolo dell'AI, eliminando l'overhead operativo presente nelle architetture multiuso. La gestione dell'alimentazione integrata si adatta dinamicamente al volume delle richieste in tempo reale, offrendo un elevato rapporto prestazioni/watt e supportando in modo sostenibile carichi di lavoro di AI complessi.
Crea su un ecosistema aperto utilizzando librerie e strumenti familiari. Le Cloud TPU forniscono supporto nativo ad alte prestazioni per PyTorch e JAX e supportano il motore vLLM per un'inferenza rapida. Gestisci e scala questi deployment in modo affidabile tra cluster globali con Google Kubernetes Engine (GKE).
Versioni di Cloud TPU
| Versione Cloud TPU | Descrizione | Disponibilità |
|---|---|---|
TPU 8i | TPU 8i è ottimizzata per la post-formazione e l'inferenza, fornendo al contempo un miglioramento dell'80% delle prestazioni per dollaro rispetto alle generazioni precedenti per l'inferenza a bassa latenza per i grandi modelli MoE. | Disponibile a breve |
TPU 8t | TPU 8t è progettato per il pre-addestramento su larga scala e per i carichi di lavoro con molti incorporamenti su una scala di 9600 chip in un singolo superpod e offre un miglioramento delle prestazioni per dollaro fino a 2,7 volte rispetto a Ironwood per l'addestramento su larga scala. | Disponibile a breve |
Ironwood | TPU di settima generazione a efficienza energetica progettata per addestramento, ragionamento e inferenza su larga scala. Dispone di 9216 chip raffreddati a liquido per pod,fornisce 42, 5 ExaFlops e prestazioni per chip 4 volte migliori rispetto a Trillium. | Ironwood è in disponibilità generale in Nord America (centrale) ed Europa (regione occidentale) |
Trillium | TPU di sesta generazione con efficienza energetica e prestazioni di calcolo di picco migliorate per l'addestramento e l'inferenza. Funziona con un'efficienza energetica superiore del 67% e offre prestazioni di calcolo di picco per chip 4,7 volte superiori rispetto alla precedente generazione di TPU v5e. | Trillium è in disponibilità generale in Nord America (regione degli Stati Uniti orientali), Europa (regione occidentale) e Asia (regione nord-orientale) |
Informazioni aggiuntive sulle versioni di Cloud TPU
TPU 8i
TPU 8i è ottimizzata per la post-formazione e l'inferenza, fornendo al contempo un miglioramento dell'80% delle prestazioni per dollaro rispetto alle generazioni precedenti per l'inferenza a bassa latenza per i grandi modelli MoE.
Disponibile a breve
TPU 8t
TPU 8t è progettato per il pre-addestramento su larga scala e per i carichi di lavoro con molti incorporamenti su una scala di 9600 chip in un singolo superpod e offre un miglioramento delle prestazioni per dollaro fino a 2,7 volte rispetto a Ironwood per l'addestramento su larga scala.
Disponibile a breve
Ironwood
TPU di settima generazione a efficienza energetica progettata per addestramento, ragionamento e inferenza su larga scala. Dispone di 9216 chip raffreddati a liquido per pod,fornisce 42, 5 ExaFlops e prestazioni per chip 4 volte migliori rispetto a Trillium.
Ironwood è in disponibilità generale in Nord America (centrale) ed Europa (regione occidentale)
Trillium
TPU di sesta generazione con efficienza energetica e prestazioni di calcolo di picco migliorate per l'addestramento e l'inferenza. Funziona con un'efficienza energetica superiore del 67% e offre prestazioni di calcolo di picco per chip 4,7 volte superiori rispetto alla precedente generazione di TPU v5e.
Trillium è in disponibilità generale in Nord America (regione degli Stati Uniti orientali), Europa (regione occidentale) e Asia (regione nord-orientale)
Informazioni aggiuntive sulle versioni di Cloud TPU
Come funziona
Dai un'occhiata all'interno delle Google Cloud TPU, inclusa una rara vista dall'interno dei data center . I clienti utilizzano le Cloud TPU per eseguire alcuni dei carichi di lavoro di IA su larga scala e questa capacità deriva da molto più di un semplice chip. In questo video, dai un'occhiata ai componenti del sistema TPU, tra cui networking di data center, interruttori di circuiti ottici, sistemi di raffreddamento ad acqua, verifica della sicurezza biometrica e altro ancora.
Riduci le tempistiche di pre-addestramento per i modelli di base di grandi dimensioni. TPU 8t fornisce potenza di calcolo ad alte prestazioni all'interno di un singolo pod e si scala tramite la rete Virgo. Grazie all'accesso rapido all'archiviazione e all'isolamento NUMA basato su Axion, l'architettura raggiunge un'elevata velocità effettiva, garantendo che i cicli di calcolo vengano spesi per la creazione di modelli attivi anziché rimanere inattivi durante il trasferimento dei dati o i ripristini hardware.
Riduci le tempistiche di pre-addestramento per i modelli di base di grandi dimensioni. TPU 8t fornisce potenza di calcolo ad alte prestazioni all'interno di un singolo pod e si scala tramite la rete Virgo. Grazie all'accesso rapido all'archiviazione e all'isolamento NUMA basato su Axion, l'architettura raggiunge un'elevata velocità effettiva, garantendo che i cicli di calcolo vengano spesi per la creazione di modelli attivi anziché rimanere inattivi durante il trasferimento dei dati o i ripristini hardware.
Integra i modelli di base in agenti intelligenti attraverso flussi di lavoro intensivi post-addestramento. L'ottava generazione del sistema TPU elabora rapidamente prove di apprendimento per rinforzo continuo, premiando i migliori percorsi di ragionamento senza i ritardi di ciclo comuni alle generazioni precedenti. Ciò consente di ottimizzare in modo efficiente i modelli del mondo, permettendo agli agenti di perfezionare il loro ragionamento in ambienti simulati prima di eseguire nel mondo reale.
Integra i modelli di base in agenti intelligenti attraverso flussi di lavoro intensivi post-addestramento. L'ottava generazione del sistema TPU elabora rapidamente prove di apprendimento per rinforzo continuo, premiando i migliori percorsi di ragionamento senza i ritardi di ciclo comuni alle generazioni precedenti. Ciò consente di ottimizzare in modo efficiente i modelli del mondo, permettendo agli agenti di perfezionare il loro ragionamento in ambienti simulati prima di eseguire nel mondo reale.
Supera il limite della memoria di inferenza. TPU 8i espande la SRAM on-chip e la memoria a larghezza di banda elevata, ospitando cache KV ad alta capacità interamente su silicio. Utilizzando lo SparseCore-Collectives Acceleration Engine (SC-CAE) per scaricare le attività di comunicazione globale, questa architettura riduce significativamente la latenza on-chip, liberando i core di calcolo principali per la generazione di token puri a bassa latenza.
Supera il limite della memoria di inferenza. TPU 8i espande la SRAM on-chip e la memoria a larghezza di banda elevata, ospitando cache KV ad alta capacità interamente su silicio. Utilizzando lo SparseCore-Collectives Acceleration Engine (SC-CAE) per scaricare le attività di comunicazione globale, questa architettura riduce significativamente la latenza on-chip, liberando i core di calcolo principali per la generazione di token puri a bassa latenza.
Business case
Agenti di ragionamento autonomi
Le TPU forniscono la larghezza di banda della memoria e l'inferenza a bassa latenza necessarie per eseguire cicli di ragionamento multi-step continui per assistenti alla programmazione in tempo reale, assistenza clienti autonoma e operazioni di sicurezza.
foundation model e AI generativa multimodale
Fornendo un calcolo continuo con throughput elevato, le TPU creano e distribuiscono in modo efficiente foundation model di grandi dimensioni in modalità testo, immagine, audio e video.
Scienza di precisione e sanità
Le TPU gestiscono la matematica complessa e basata su matrici per accelerare le simulazioni a elevato consumo di risorse di calcolo per la biologia strutturale, il sequenziamento genomico e la ricerca farmaceutica.
AI fisica
Crea agenti fisici in grado di interagire e adattarsi al mondo reale. Simula e addestra robot, agenti autonomi e macchine industriali in modo più rapido ed efficiente con dati sintetici e reali.