Non sai se le TPU sono adatte a te? Scopri quando utilizzare GPU o CPU su istanze Compute Engine per eseguire i carichi di lavoro di machine learning.
Esegui carichi di lavoro per l'addestramento dell'IA su larga scala
Ottimizza i modelli IA di base
Gestisci carichi di lavoro di inferenza IA su larga scala
Panoramica
Le Cloud TPU sono progettate per scalare in modo economico per un'ampia gamma di carichi di lavoro IA, compresi addestramento, ottimizzazione e inferenza. Le Cloud TPU offrono la versatilità per accelerare i carichi di lavoro sui principali framework di IA, tra cui PyTorch, JAX e TensorFlow. Orchestra senza problemi carichi di lavoro di IA su larga scala tramite l'integrazione di Cloud TPU in Google Kubernetes Engine (GKE). Utilizza Dynamic Workload Scheduler per migliorare la scalabilità dei carichi di lavoro pianificando tutti gli acceleratori necessari contemporaneamente. I clienti che cercano il modo più semplice per sviluppare modelli di IA possono sfruttare le Cloud TPU anche in Vertex AI, una piattaforma di AI completamente gestita.
Una GPU è un processore specializzato progettato originariamente per la manipolazione della grafica computerizzata. La loro struttura parallela le rende ideali per algoritmi che elaborano grandi blocchi di dati presenti in genere nei carichi di lavoro di IA. Scopri di più.
Una TPU è un circuito integrato specifico per applicazioni (ASIC) progettato da Google per le reti neurali. Le TPU dispongono di funzionalità specializzate, come l'unità di moltiplicazione a matrice (MXU) e la topologia di interconnessione proprietaria, che le rendono ideali per accelerare l'addestramento e l'inferenza dell'IA.
Versioni di Cloud TPU
Versione Cloud TPU | Descrizione | Disponibilità |
---|---|---|
Cloud TPU v5p | La Cloud TPU più potente per l'addestramento di modelli IA | Cloud TPU v5p è in disponibilità generale in Nord America (regione degli Stati Uniti orientali) |
Cloud TPU v5e | La Cloud TPU più efficiente, versatile e scalabile | Cloud TPU v5e è in disponibilità generale in Nord America (regioni degli Stati Uniti centrali/orientali/meridionali/occidentali), Europa (regione occidentale) e Asia (regione del sud-orientale) |
Informazioni aggiuntive sulle versioni di Cloud TPU
Cloud TPU v5p
La Cloud TPU più potente per l'addestramento di modelli IA
Cloud TPU v5p è in disponibilità generale in Nord America (regione degli Stati Uniti orientali)
Cloud TPU v5e
La Cloud TPU più efficiente, versatile e scalabile
Cloud TPU v5e è in disponibilità generale in Nord America (regioni degli Stati Uniti centrali/orientali/meridionali/occidentali), Europa (regione occidentale) e Asia (regione del sud-orientale)
Informazioni aggiuntive sulle versioni di Cloud TPU
Come funziona
Dai un'occhiata all'interno delle Google Cloud TPU, inclusa una rara vista dall'interno dei data center in cui avviene la magia. I clienti utilizzano le Cloud TPU per eseguire alcuni dei più grandi carichi di lavoro di IA al mondo e questa potenza proviene da molto più di un semplice chip. In questo video, dai un'occhiata ai componenti del sistema TPU, tra cui networking di data center, interruttori di circuiti ottici, sistemi di raffreddamento ad acqua, verifica della sicurezza biometrica e altro ancora.
Utilizzi comuni
Inizia rapidamente con MaxText e MaxDiffusion, deployment di riferimento open source ad alte prestazioni e altamente scalabili per l'addestramento di modelli di grandi dimensioni.
Massimizza le prestazioni, l'efficienza e il time to value con le Cloud TPU. Scala fino a migliaia di chip con l'addestramento multislice delle Cloud TPU. Misura e migliora la produttività dell'addestramento ML su larga scala con ML Goodput Measurement. Inizia rapidamente con MaxText e MaxDiffusion, deployment di riferimento open source per l'addestramento di modelli di grandi dimensioni.
Inizia rapidamente con MaxText e MaxDiffusion, deployment di riferimento open source ad alte prestazioni e altamente scalabili per l'addestramento di modelli di grandi dimensioni.
Massimizza le prestazioni, l'efficienza e il time to value con le Cloud TPU. Scala fino a migliaia di chip con l'addestramento multislice delle Cloud TPU. Misura e migliora la produttività dell'addestramento ML su larga scala con ML Goodput Measurement. Inizia rapidamente con MaxText e MaxDiffusion, deployment di riferimento open source per l'addestramento di modelli di grandi dimensioni.
Accelera l'inferenza dell'AI con JetStream e MaxDiffusion. JetStream è un nuovo motore di inferenza progettato nello specifico per l'inferenza dei modelli linguistici di grandi dimensioni (LLM). JetStream rappresenta un passo avanti significativo in termini di prestazioni ed efficienza dei costi e offre velocità effettiva e latenza senza precedenti per l'inferenza LLM sulle Cloud TPU. MaxDiffusion è un insieme di implementazioni di modelli di diffusione ottimizzate per le Cloud TPU, che semplificano l'esecuzione dell'inferenza per i modelli di diffusione su Cloud TPU ad alte prestazioni.
Cloud TPU v5e consente un'inferenza ad alte prestazioni ed economica per un'ampia gamma di carichi di lavoro IA, inclusi i più recenti LLM e modelli di IA generativa. TPU v5e offre prestazioni in termini di velocità effettiva fino a 2,5 volte superiore per dollaro e una velocità fino a 1,7 volte superiore rispetto a Cloud TPU v4. Ogni chip TPU v5e fornisce fino a 393 trilioni di operazioni int8 al secondo, consentendo a modelli complessi di fare previsioni rapidamente. Un pod TPU v5e offre fino a 100 quadrilioni di operazioni int8 al secondo o 100 petaOps di potenza di calcolo.
Accelera l'inferenza dell'AI con JetStream e MaxDiffusion. JetStream è un nuovo motore di inferenza progettato nello specifico per l'inferenza dei modelli linguistici di grandi dimensioni (LLM). JetStream rappresenta un passo avanti significativo in termini di prestazioni ed efficienza dei costi e offre velocità effettiva e latenza senza precedenti per l'inferenza LLM sulle Cloud TPU. MaxDiffusion è un insieme di implementazioni di modelli di diffusione ottimizzate per le Cloud TPU, che semplificano l'esecuzione dell'inferenza per i modelli di diffusione su Cloud TPU ad alte prestazioni.
Cloud TPU v5e consente un'inferenza ad alte prestazioni ed economica per un'ampia gamma di carichi di lavoro IA, inclusi i più recenti LLM e modelli di IA generativa. TPU v5e offre prestazioni in termini di velocità effettiva fino a 2,5 volte superiore per dollaro e una velocità fino a 1,7 volte superiore rispetto a Cloud TPU v4. Ogni chip TPU v5e fornisce fino a 393 trilioni di operazioni int8 al secondo, consentendo a modelli complessi di fare previsioni rapidamente. Un pod TPU v5e offre fino a 100 quadrilioni di operazioni int8 al secondo o 100 petaOps di potenza di calcolo.
Una solida piattaforma AI/ML prende in considerazione i seguenti livelli: (i) Orchestrazione dell'infrastruttura che supporta le GPU per l'addestramento e la gestione dei carichi di lavoro su larga scala, (ii) Integrazione flessibile con i framework di trattamento dati e computing distribuito (iii) Supporto a più team sulla stessa infrastruttura per massimizzare l'utilizzo delle risorse.
Combina la potenza delle Cloud TPU con la flessibilità e la scalabilità di GKE per creare ed eseguire il deployment di modelli di machine learning in modo più rapido e semplice che mai. Con le Cloud TPU disponibili in GKE, ora puoi avere un singolo ambiente operativo coerente per tutti i tuoi carichi di lavoro, standardizzando le pipeline MLOps automatizzate.
Una solida piattaforma AI/ML prende in considerazione i seguenti livelli: (i) Orchestrazione dell'infrastruttura che supporta le GPU per l'addestramento e la gestione dei carichi di lavoro su larga scala, (ii) Integrazione flessibile con i framework di trattamento dati e computing distribuito (iii) Supporto a più team sulla stessa infrastruttura per massimizzare l'utilizzo delle risorse.
Combina la potenza delle Cloud TPU con la flessibilità e la scalabilità di GKE per creare ed eseguire il deployment di modelli di machine learning in modo più rapido e semplice che mai. Con le Cloud TPU disponibili in GKE, ora puoi avere un singolo ambiente operativo coerente per tutti i tuoi carichi di lavoro, standardizzando le pipeline MLOps automatizzate.
Per i clienti che cercano un modo più semplice per sviluppare modelli IA, puoi eseguire il deployment di Cloud TPU v5e con Vertex AI, una piattaforma end-to-end per la creazione modelli di IA su un'infrastruttura completamente gestita, creata appositamente per la gestione a bassa latenza e l'addestramento ad alte prestazioni.
Per i clienti che cercano un modo più semplice per sviluppare modelli IA, puoi eseguire il deployment di Cloud TPU v5e con Vertex AI, una piattaforma end-to-end per la creazione modelli di IA su un'infrastruttura completamente gestita, creata appositamente per la gestione a bassa latenza e l'addestramento ad alte prestazioni.
Prezzi
Prezzi per Cloud TPU | Tutti i prezzi di Cloud TPU si intendono per chip/ora | ||
---|---|---|---|
Versione Cloud TPU | Prezzo di valutazione (USD) | Impegno di 1 anno (USD) | Impegno di 3 anni (USD) |
Cloud TPU v5p | Starting at 4,2000 $ per chip/ora | Starting at 2,9400 $ per chip/ora | Starting at 1,8900 $ per chip/ora |
Cloud TPU v5e | Starting at 1,2000 $ per chip/ora | Starting at 0,8400 $ per chip/ora | Starting at 0,5400 $ per chip/ora |
I prezzi di Cloud TPU variano in base al prodotto e alla regione.
Prezzi per Cloud TPU
Tutti i prezzi di Cloud TPU si intendono per chip/ora
Cloud TPU v5p
Starting at
4,2000 $
per chip/ora
Starting at
2,9400 $
per chip/ora
Starting at
1,8900 $
per chip/ora
Cloud TPU v5e
Starting at
1,2000 $
per chip/ora
Starting at
0,8400 $
per chip/ora
Starting at
0,5400 $
per chip/ora
I prezzi di Cloud TPU variano in base al prodotto e alla regione.