
Entrena, ajusta y entrega modelos y conjuntos de datos más grandes de forma eficiente con la TPU más potente hasta el momento.
Ironwood es la unidad de procesamiento tensorial (TPU) más potente, capaz y eficiente de Google hasta la fecha, diseñada para potenciar los modelos de IA inferencial y de pensamiento a gran escala. Aprovechando la amplia experiencia en el desarrollo de TPU para los servicios internos de Google y los clientes de Google Cloud, Ironwood se diseñó para manejar las demandas de procesamiento y memoria de modelos como los modelos de lenguaje grandes (LLM), la mezcla de expertos (MoE) y las tareas de razonamiento avanzado. Admite cargas de trabajo de entrenamiento y las entregas dentro de la arquitectura de AI Hypercomputer de Google Cloud.
Optimizada para modelos de lenguaje grandes (LLM): Ironwood está diseñada específicamente para satisfacer más rápido las crecientes demandas de los LLM y acelerar las aplicaciones de IA generativa.
Tecnología de interconexión mejorada: Aprovecha las mejoras en la tecnología de interconexión de TPU, que permiten una comunicación más rápida y una latencia reducida.
Computación de alto rendimiento: Experimenta mejoras significativas en el rendimiento para un amplio rango de tareas de inferencia.
IA sustentable: Ironwood continúa el compromiso de Google Cloud con la sustentabilidad y ofrece un rendimiento excepcional con una eficiencia energética optimizada.
Ironwood integra una mayor densidad de procesamiento, más capacidad de memoria y más ancho de banda de interconexión con ganancias significativas en la eficiencia energética. Estas funciones están diseñadas para permitir una mayor capacidad de procesamiento y una menor latencia para las cargas de trabajo exigentes de entrega y entrenamiento de IA, en particular aquellas que involucran modelos grandes y complejos. Las TPU de Ironwood funcionan dentro de la arquitectura de AI Hypercomputer de Google Cloud.
Los productos de IA de Cloud cumplen con las políticas de nuestros ANS. Es posible que ofrezcan garantías de latencia o disponibilidad distintas de otros servicios de Google Cloud.