Crea, optimiza y escala cargas de trabajo de entrenamiento, inferencia y aprendizaje por refuerzo para potenciar agentes de razonamiento autónomo
Descripción general
Las TPUs son aceleradores con diseño personalizado creados específicamente para cargas de trabajo de IA, como agentes, generación de código, modelos de lenguaje grandes, generación de contenido multimedia, voz sintética, servicios de visión, motores de recomendaciones y modelos de personalización, entre otros. Las TPUs impulsan Gemini y todas las aplicaciones potenciadas por IA de Google, como la Búsqueda, Fotos y Maps, que sirven a más de 1,000 millones de usuarios.
El cambio a la IA de agentes requiere una infraestructura capaz de razonamiento de varios pasos y aprendizaje por refuerzo continuo. Las TPUs rompen la "barrera de memoria" de la inferencia alojando cachés de KV masivas completamente en el chip, utilizando SRAM expandida en el chip con TPU 8i. En combinación con nuestro motor SparseCore para descargar tareas de comunicación, esta arquitectura reduce el tiempo de inactividad del núcleo. El resultado es un rendimiento predecible y de baja latencia que impulsa los bucles de razonamiento complejos.
Acelera el tiempo de implementación reduciendo los plazos de entrenamiento de los modelos de frontera. Las Cloud TPUs maximizan el rendimiento útil, lo que garantiza que casi todos los ciclos de procesamiento se dediquen al aprendizaje activo. Esto se admite con una interconexión entre chips de alta velocidad, conmutación de circuitos ópticos y la red Virgo, por lo que los aceleradores operan como un sistema unificado y altamente confiable.
Las TPUs están diseñadas para mejorar el valor y el consumo de energía enfocándose en las demandas computacionales de la IA, lo que elimina la sobrecarga operativa que se encuentra en las arquitecturas multipropósit.o La administración de energía integrada se ajusta de forma dinámica al volumen de solicitudes en tiempo real, lo que ofrece un alto rendimiento por vatio y admite cargas de trabajo complejas de IA de forma sustentable.
Crea en un ecosistema abierto con bibliotecas y herramientas conocidas. Las Cloud TPUs proporcionan compatibilidad nativa de alto rendimiento para PyTorch y JAX, y admiten el motor vLLM para una inferencia rápida. Administra y escala estas implementaciones de manera confiable en clústeres globales con Google Kubernetes Engine (GKE).
Versiones de Cloud TPU
| Versión de Cloud TPU | Descripción | Disponibilidad |
|---|---|---|
TPU 8i | La TPU 8i está optimizada para la inferencia y el entrenamiento posterior, y proporciona una mejora del 80% en el rendimiento por dólar en comparación con las generaciones anteriores para la inferencia de baja latencia para modelos MoE grandes. | Próximamente |
TPU 8t | La TPU 8t está diseñada para el entrenamiento previo a gran escala y las cargas de trabajo con muchos embeddings a una escala de 9,600 chips en un solo superpod, y proporciona una mejora de hasta 2.7 veces en el rendimiento por dólar en comparación con Ironwood para el entrenamiento a gran escala. | Próximamente |
Ironwood | TPU de 7ª generación con eficiencia energética diseñada para entrenamiento, razonamiento e inferencia a gran escala. Cuenta con 9,216 chips refrigerados por líquido por Pod, proporciona 42.5 ExaFlops y un rendimiento por chip 4 veces mejor que Trillium. | Ironwood está disponible de forma general en Norteamérica (Central) y Europa (región occidental) |
Trillium | TPU de sexta generación con eficiencia energética mejorada y rendimiento máximo de procesamiento para entrenamiento e inferencia. Funciona con un 67% más de eficiencia energética y proporciona un rendimiento de procesamiento máximo 4.7 veces mayor por chip en comparación con la TPU v5e de la generación anterior. | Trillium está disponible de forma general en Norteamérica (región oriental de EE.UU.), Europa (región occidental) y Asia (región nororiental) |
Información adicional sobre las versiones de Cloud TPU
TPU 8i
La TPU 8i está optimizada para la inferencia y el entrenamiento posterior, y proporciona una mejora del 80% en el rendimiento por dólar en comparación con las generaciones anteriores para la inferencia de baja latencia para modelos MoE grandes.
Próximamente
TPU 8t
La TPU 8t está diseñada para el entrenamiento previo a gran escala y las cargas de trabajo con muchos embeddings a una escala de 9,600 chips en un solo superpod, y proporciona una mejora de hasta 2.7 veces en el rendimiento por dólar en comparación con Ironwood para el entrenamiento a gran escala.
Próximamente
Ironwood
TPU de 7ª generación con eficiencia energética diseñada para entrenamiento, razonamiento e inferencia a gran escala. Cuenta con 9,216 chips refrigerados por líquido por Pod, proporciona 42.5 ExaFlops y un rendimiento por chip 4 veces mejor que Trillium.
Ironwood está disponible de forma general en Norteamérica (Central) y Europa (región occidental)
Trillium
TPU de sexta generación con eficiencia energética mejorada y rendimiento máximo de procesamiento para entrenamiento e inferencia. Funciona con un 67% más de eficiencia energética y proporciona un rendimiento de procesamiento máximo 4.7 veces mayor por chip en comparación con la TPU v5e de la generación anterior.
Trillium está disponible de forma general en Norteamérica (región oriental de EE.UU.), Europa (región occidental) y Asia (región nororiental)
Información adicional sobre las versiones de Cloud TPU
Cómo funciona
Descubre la magia de las Google Cloud TPUs, incluida una vista inusual de los centros de datos. Los clientes usan las Cloud TPUs para ejecutar algunas de las cargas de trabajo de IA a gran escala, y esa capacidad proviene de mucho más que un chip. En este video, observarás los componentes del sistema de TPU, incluidas las redes de los centros de datos, los interruptores de circuitos ópticos, los sistemas de enfriamiento de agua, la verificación de seguridad biométrica y mucho más.
Reduce los plazos de entrenamiento previo para modelos de base masivos. La TPU 8t proporciona potencia de conmutación de alto rendimiento en un solo pod y se escala a través de la red Virgo. En combinación con el acceso rápido al almacenamiento y el aislamiento NUMA potenciado por Axion, la arquitectura logra un alto rendimiento útil, lo que garantiza que los ciclos de procesamiento se dediquen a la creación activa de modelos en lugar de estar inactivos durante la transferencia de datos o los restablecimientos de hardware.
Reduce los plazos de entrenamiento previo para modelos de base masivos. La TPU 8t proporciona potencia de conmutación de alto rendimiento en un solo pod y se escala a través de la red Virgo. En combinación con el acceso rápido al almacenamiento y el aislamiento NUMA potenciado por Axion, la arquitectura logra un alto rendimiento útil, lo que garantiza que los ciclos de procesamiento se dediquen a la creación activa de modelos en lugar de estar inactivos durante la transferencia de datos o los restablecimientos de hardware.
Crea modelos base en agentes inteligentes a través de flujos de trabajo intensivos posteriores al entrenamiento. La 8ª generación del sistema TPU procesa rápidamente pruebas continuas de aprendizaje por refuerzo, recompensando las mejores rutas de razonamiento sin los retrasos de ciclo comunes en las generaciones anteriores. Esto te permite ajustar de manera eficiente los modelos del mundo, lo que permite a los agentes refinar su razonamiento en entornos simulados antes de ejecutarlo en el mundo real.
Crea modelos base en agentes inteligentes a través de flujos de trabajo intensivos posteriores al entrenamiento. La 8ª generación del sistema TPU procesa rápidamente pruebas continuas de aprendizaje por refuerzo, recompensando las mejores rutas de razonamiento sin los retrasos de ciclo comunes en las generaciones anteriores. Esto te permite ajustar de manera eficiente los modelos del mundo, lo que permite a los agentes refinar su razonamiento en entornos simulados antes de ejecutarlo en el mundo real.
Rompe la barrera de la memoria de inferencia. La TPU 8i expande la SRAM en chip y la memoria de alto ancho de banda, lo que permite alojar cachés KV de alta capacidad completamente en el silicio. Con el motor de aceleración de colectivos SparseCore (SC-CAE) para descargar tareas de comunicación global, esta arquitectura reduce significativamente la latencia en el chip, lo que libera los núcleos de procesamiento principales para la generación de tokens pura y de baja latencia.
Rompe la barrera de la memoria de inferencia. La TPU 8i expande la SRAM en chip y la memoria de alto ancho de banda, lo que permite alojar cachés KV de alta capacidad completamente en el silicio. Con el motor de aceleración de colectivos SparseCore (SC-CAE) para descargar tareas de comunicación global, esta arquitectura reduce significativamente la latencia en el chip, lo que libera los núcleos de procesamiento principales para la generación de tokens pura y de baja latencia.
Caso empresarial
Agentes de razonamiento autónomo
Las TPU proporcionan el ancho de banda de memoria y la inferencia de baja latencia necesarios para ejecutar bucles de razonamiento continuos y de varios pasos para asistentes de programación en tiempo real, atención al cliente autónoma y operaciones de seguridad.
Modelos de base y la IA generativa multimodal
Las TPU, que ofrecen computación continua con alta capacidad de procesamiento, crean y entregan de manera eficiente modelos de base masivos en modalidades de texto, imagen, audio y video.
Ciencia y atención médica de precisión
Las TPU administran matemáticas complejas y con muchas matrices para acelerar simulaciones de procesamiento intensivas para biología estructural, secuenciación genómica y descubrimiento de fármacos.
IA física
Crea agentes físicos que interactúen con el mundo real y se adapten a él. Simula y entrena robots, agentes autónomos y máquinas industriales de forma más rápida y eficiente con datos sintéticos y del mundo real.