
Addestra, ottimizza e distribuisci modelli e set di dati più grandi in modo efficiente con la TPU più potente di sempre.
Ironwood è la Tensor Processing Unit (TPU) più potente, funzionale ed efficiente dal punto di vista energetico di Google, progettata per supportare modelli pensanti di AI inferenziale su larga scala. Sfruttando l'ampia esperienza nello sviluppo di TPU per i servizi interni di Google e per i clienti di Google Cloud, Ironwood è progettato per gestire le richieste di calcolo e memoria di modelli come i modelli linguistici di grandi dimensioni (LLM), i modelli Mixture-of-Experts (MoE) e le attività di ragionamento avanzato. Supporta sia i carichi di lavoro di addestramento che quelli di erogazione all'interno dell'architettura dell'AI Hypercomputer di Google Cloud.
Ottimizzato per i modelli linguistici di grandi dimensioni (LLM): Ironwood è progettato specificamente per accelerare le crescenti esigenze di LLM e applicazioni di AI generativa.
Tecnologia di interconnessione migliorata: sfrutta i miglioramenti della tecnologia di interconnessione TPU, che consente una comunicazione più rapida e offre una latenza ridotta.
Computing ad alte prestazioni: ottieni notevoli miglioramenti delle prestazioni per un'ampia gamma di attività di inferenza.
AI sostenibile: Ironwood prosegue l'impegno di Google Cloud per la sostenibilità, offrendo prestazioni eccezionali con un'efficienza energetica ottimizzata.
Ironwood integra una maggiore densità di calcolo, capacità di memoria e larghezza di banda di interconnessione con significativi guadagni in termini di efficienza energetica. Queste funzionalità sono progettate per consentire una maggiore velocità effettiva e una minore latenza per carichi di lavoro impegnativi di addestramento e gestione dell'AI, in particolare quelli che coinvolgono modelli complessi e di grandi dimensioni. Le TPU Ironwood operano all'interno dell'architettura dell'AI Hypercomputer Google Cloud.
I prodotti AI Cloud sono conformi alle nostre norme relative allo SLA. Possono offrire garanzie di latenza o disponibilità diverse rispetto ad altri servizi Google Cloud.