AI Hypercomputer

Ti presentiamo Ironwood, la nostra TPU più potente, funzionale ed efficiente dal punto di vista energetico.

Addestra, ottimizza e distribuisci su un supercomputer AI

AI Hypercomputer è il sistema di supercomputing integrato alla base di ogni workload AI su Google Cloud. È composto da hardware, software e modelli di consumo progettati per semplificare il deployment dell'AI, migliorare l'efficienza a livello di sistema e ottimizzare i costi.

Guida: I nostri quattro principali casi d'uso, architetture di riferimento e tutorial di AI Hypercomputer

Note di rilascio

Panoramica

Hardware ottimizzato con l'IA

Scegli tra le opzioni di computing, archiviazione e networking ottimizzate per gli obiettivi granulari a livello di workload, che si tratti di un maggiore throughput, una minore latenza, un time-to-results più rapido o un TCO più basso. Scopri di più su: Google Cloud TPU, Google Cloud GPU, oltre alle ultime novità in materia di archiviazione e networking.

Video: Le ultime innovazioni di computing

Scopri come Google Cloud ha progettato opzioni di computing AI personalizzate in questo riepilogo di 10 minuti degli annunci del 2025.

Guarda on demand

Software leader, framework aperti

Ottieni di più dal tuo hardware con software leader del settore, integrato con framework, librerie e compilatori aperti per rendere più efficienti lo sviluppo, l'integrazione e la gestione dell'AI.

Supporto per PyTorch, JAX, Keras, vLLM, Megatron-LM, NeMo Megatron, MaxText, MaxDiffusion e molti altri.
L'integrazione profonda con il compilatore XLA consente l'interoperabilità tra diversi acceleratori, mentre Pathways su Cloud consente di utilizzare lo stesso runtime distribuito che alimenta l'infrastruttura interna di addestramento e inferenza su larga scala di Google.
Tutto questo è implementabile nell'ambiente che preferisci, che si tratti di Google Kubernetes Engine, Cluster Director o Google Compute Engine.

Video: ascolta le testimonianze di Moloco, LG e Shopify

Scopri come sfruttano le soluzioni di AI di Google Cloud per promuovere l'innovazione e trasformare le loro attività

Guarda on demand

Modelli di consumo flessibili

Le opzioni di consumo flessibili consentono ai clienti di scegliere costi fissi con sconti per impegno di utilizzo o modelli on demand dinamici per soddisfare le loro esigenze aziendali.Dynamic Workload Scheduler e le VM Spot possono aiutarti a ottenere la capacità di cui hai bisogno senza esagerare con l'allocazione. Inoltre, gli strumenti di ottimizzazione dei costi di Google Cloud aiutano ad automatizzare l'utilizzo delle risorse per ridurre le attività manuali per i tecnici.

Ottimizza l'accesso alle risorse e l'economia per i carichi di lavoro IA/ML

Scopri come il servizio Dynamic Workload Scheduler ottimizza l'esecuzione dei carichi di lavoro IA.

Leggi il blog

Come funziona

Google è un'azienda leader nel campo dell'intelligenza artificiale grazie all'invenzione di tecnologie come TensorFlow. Sapevi che puoi sfruttare la tecnologia di Google per i tuoi progetti? Scopri la storia dell'innovazione di Google nell'infrastruttura AI e come puoi sfruttarla per i tuoi carichi di lavoro.

Diagramma dell'architettura AI Hypercomputer di Google Cloud accanto alla foto della product manager Chelsie di Google Cloud

Utilizzi comuni

Esegui addestramento e preaddestramento dell'AI su larga scala

Addestramento su IA potente, scalabile ed efficiente

I workload di addestramento devono essere eseguiti come job altamente sincronizzati su migliaia di nodi in cluster strettamente accoppiati. Un singolo nodo degradato può interrompere un intero job, ritardando il time-to-market. Devi:

Assicurarti che il cluster sia configurato rapidamente e ottimizzato per il workload in questione
Prevedi gli errori e risolvili rapidamente
e continua a lavorare con un workload, anche quando si verificano errori

Vogliamo rendere estremamente semplice per i clienti eseguire il deployment e la scalabilità dei workload di addestramento su Google Cloud.

Procedure

Addestramento su IA potente, scalabile ed efficiente

Assicurarti che il cluster sia configurato rapidamente e ottimizzato per il workload in questione
Prevedi gli errori e risolvili rapidamente
e continua a lavorare con un workload, anche quando si verificano errori

Vogliamo rendere estremamente semplice per i clienti eseguire il deployment e la scalabilità dei workload di addestramento su Google Cloud.

Risorse aggiuntive

Addestramento su IA potente, scalabile ed efficiente

Per creare un cluster AI, inizia con uno dei nostri tutorial:

Crea un cluster Slurm con GPU (VM A4) e Cluster Toolkit
Crea un cluster GKE con Cluster Director per GKE o Cluster Toolkit

Esempi di clienti

Character AI sfrutta Google Cloud per fare lo scale up

"Abbiamo bisogno delle GPU per generare risposte ai messaggi degli utenti. Inoltre, man mano che aumentano gli utenti sulla nostra piattaforma, abbiamo bisogno di più GPU per gestirli. Quindi, su Google Cloud possiamo sperimentare per trovare la piattaforma giusta per un particolare carico di lavoro. È fantastico avere la flessibilità necessaria per scegliere le soluzioni più redditizie." Myle Ott, Ingegnere fondatore, Character.AI

Myle Ott, Ingegnere fondatore, Character.AI

1:36

Esegui il deployment e l'orchestrazione delle applicazioni di AI

Sfrutta software di orchestrazione dell'AI e framework aperti leader per offrire esperienze basate sull'AI

Google Cloud fornisce immagini che contengono sistemi operativi, framework, librerie e driver comuni. AI Hypercomputer ottimizza queste immagini preconfigurate per supportare i tuoi workload di AI.

Framework e librerie di AI e ML: utilizza le immagini Docker Deep Learning Software Layer (DLSL) per eseguire modelli ML come NeMO e MaxText su un cluster Google Kubernetes Engine (GKE).
Deployment del cluster e orchestrazione dell'AI: puoi eseguire il deployment dei tuoi workload di AI su cluster GKE, cluster Slurm o istanze Compute Engine. Per ulteriori informazioni, vedi Panoramica della creazione di VM e cluster.