コンテンツに移動
コンピューティング

TPU「Ironwood」 の一般提供開始と推論時代を支える新しい Axion VM を発表

2025年11月7日
https://storage.googleapis.com/gweb-cloudblog-publish/images/3_WZEo7he.max-2000x2000.png
Amin Vahdat

VP/GM, AI & Infrastructure, Google Cloud

Mark Lohmeyer

VP & GM, Compute and AI Infrastructure

Try Gemini 3

Our most intelligent model is now available on Vertex AI and Gemini Enterprise

Try now

※この投稿は米国時間 2025 年 11 月 7 日に、Google Cloud blog に投稿されたものの抄訳です。

Google の Gemini、Veo、Imagen、そして Anthropic の Claude など、今日の最先端モデルは Tensor Processing Unit(TPU)でトレーニングおよび提供されています。多くの組織において現在はモデルのトレーニングから、それらを用いた有用で応答性の高い対話を実現することへと焦点を移行しつつあります。絶えず変化するモデル アーキテクチャ、エージェント ワークフローの台頭、そして演算需要のほぼ指数関数的な成長が、この新しい推論の時代を形作っています。特に、汎用コンピュートと機械学習のためのアクセラレータとの間のオーケストレーションと緊密な連携を必要とするエージェント ワークフローは、カスタム シリコンと垂直統合され最適化されたシステム アーキテクチャに新たな機会を生み出しています。

この変革に備え、本日、カスタム シリコンにて開発された 3 つの新製品の提供を発表します。推論とエージェント ワークロードに対して新しい機能を提供し、優れたパフォーマンスと低コストを実現します。

  • Ironwood:第 7 世代 TPU である Ironwood の一般提供を今後数週間で開始します。Ironwood は、大規模なモデルトレーニングや複雑な強化学習(RL)から、大容量で低レイテンシの AI 推論やモデル提供まで、最も要求の厳しいワークロード専用に設計されています。第 5 世代と比較して、チップあたり10倍のピークパフォーマンス向上を実現し、前世代の第 6 世代の Trillium と比較して、トレーニングと推論の両ワークロードで チップあたり 4 倍以上のパフォーマンス向上を実現しており、当社で最も強力かつエネルギー効率に優れたカスタム シリコンです。

  • 新しい Arm® ベースの Axion インスタンス:当社の N シリーズ仮想マシンで最もコスト効率に優れている N4A を、現在プレビュー版として提供しています。N4A は、同等の現世代 x86 ベースの VMと比較して最大 2 倍の価格性能を実現します。さらに、当社初の Arm ベースのベアメタル インスタンスである C4A metal 近日中にプレビュー提供を開始します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Ironwood.max-2200x2200.jpg

Ironwood とこれらの新しい Axion インスタンスは、TPU、YouTube 向けの Video Coding Units(VCU)、モバイル向けの 5 世代にわたる Tensor チップなど、Google のカスタム シリコン イノベーションの長い歴史における最新の成果です。これらはいずれも、モデル研究、ソフトウェア、ハードウェア開発を一元的に行う深いシステム レベルの共同設計によってのみ可能となる、飛躍的なパフォーマンス向上を実現するために構築しました。このアプローチにより、10 年前に初の TPU を構築し、それが 8 年前 の Transformer の発明を可能にしました。Transformer は、現代の AI の根幹を支えるアーキテクチャとなっています。また、Titanium アーキテクチャや、2020 年以来フリート全体稼働率が約 99.999% のギガワット規模で展開する高度な液体冷却といった最近の進歩にも影響を与えています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_E4cJ2SM.max-1800x1800.png

3 つの Ironwood TPU が液体冷却に接続されている Ironwood ボード

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_BWW5xwl.max-2000x2000.jpg

Ironwood スーパーポッドに液体冷却を提供する第 3 世代冷却分配ユニット

Ironwood:モデル トレーニングから惑星規模の推論への最短経路

Ironwood は発表直後から非常に大きな反響を呼んでいます。Anthropic は現在、大規模な Claude モデルのトレーニングから数百万のユーザーへの提供に至るまでのプロセスを加速させ、価格性能比が目覚ましく向上することを高く評価しています。実際、Anthropic は最大 100 万 TPU へのアクセスを計画しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Anthropic.max-700x700.jpg

「Fortune 500 企業からスタートアップまで、当社のお客様は最も重要な業務に Claude を活用しています。需要が指数関数的に増加し続ける中、当社は AI 研究と製品開発の限界に挑戦しながら、コンピューティング リソースを拡大しています。当社は、Ironwood で推論パフォーマンスとトレーニングのスケーラビリティの両方を効率的に向上させることで、お客様が期待するスピードと信頼性を維持しています。」— Anthropic コンピューティング部門責任者 James Bradbury 氏

Ironwood は、あらゆる規模や業界の組織で利用されています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/lightricks.max-700x700.jpg

「Lightricks のミッションは、オープンな創造性の最先端を確立することであり、それには摩擦やコストを大規模に排除する AI インフラストラクチャが必要です。当社は、Google Cloud TPU とその大規模な ICI ドメインを活用し、主要なオープンソース マルチモーダル生成モデルである LTX-2 において画期的なトレーニング効率を達成しました。推論時代を迎える今、Ironwood の初期テストの結果は非常に有望です。Ironwood により、世界中の数百万のお客様向けに、より繊細で精密、忠実度の高い画像および動画の生成を提供できると確信しています。」— Lightricks 生成 AI 基盤モデル リサーチ ディレクター Yoav HaCohen 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/essential_ai.max-700x700.jpg

「Essential AI の使命は、強力でオープンなフロンティアモデルを構築することです。私たちは大規模で効率的なスケールを必要としており、Google Cloud の Ironwood TPU はまさにそれを提供してくれます。このプラットフォームは非常に簡単に導入でき、当社のエンジニアはすぐにその能力を活用し、AI のブレークスルーを加速させることに集中できました。」— Essential AI インフラストラクチャ リード Philip Monk 氏

システム レベルの設計で推論パフォーマンス、信頼性、コストを最大化

TPU は、コンピューティング、ネットワーキング、ストレージ、およびソフトウェアを統合し、システム レベルのパフォーマンスと効率を向上させる統合型スーパーコンピューティング システムである AI Hypercomputerの重要な要素です。最近の IDC のレポートによると、AI Hypercomputer を活用されているお客様は、平均して3 年間で 353% の ROI、28% の IT コスト削減、55% の IT チームの効率向上を達成しています。1

Ironwood TPU は、お客様が規模と効率の限界をさらに押し広げることを支援します。TPU をデプロイすると、システムは個々のチップをお互いで接続させ、単一ユニットとして機能する相互接続された TPU のグループであるポッドを作ります。Ironwood では、9.6 Tb/s の画期的な Inter-Chip Interconnect(ICI)ネットワーキングにより、単一のポッド内で最大 9,216 個のチップまで拡張できます。この大規模な接続性により、数千のチップが相互に迅速に通信し、驚異的な 1.77 ペタバイトの共有 High Bandwidth Memory(HBM)にアクセスでき、最も要求の厳しいモデルでもデータ ボトルネックを克服します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_WZEo7he.max-1800x1800.png

単一ドメインで 9,216 個の Ironwood TPU を直接接続する Ironwood スーパーポッドの一部

この規模のサービスは中断のない可用性が求められます。そのため、当社の Optical Circuit Switching(OCS)テクノロジーが動的で再構成可能なファブリックとして機能し、サービスの稼働を維持しながら、障害を瞬時に迂回してワークロードを復旧させます。さらなるパワーが必要な場合、Ironwood はポッドを越えて、数十万の TPU からなるクラスターへと拡張します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_fFI906U.max-2000x2000.png

Jupiter データセンター ネットワークにより、複数の Ironwood スーパーポッドを数十万の TPU のクラスターに接続

AI Hypercomputer の優位性:より速く、効率的な成果を生むハードウェアとソフトウェアの共同設計

このハードウェアの上には共同設計されたソフトウェア層を重ねており、Ironwood の大規模な処理能力とメモリを最大化し、AI ライフサイクル全体で容易に利用できるようにすることを目指しています。

  • TPU のお客様は、Google Kubernetes Engine の Cluster Director 機能を利用し、フリートの効率と運用を向上できます。これには、インテリジェントなスケジューリングと高可用性クラスターのためのトポロジー認識が含まれます。

  • 事前および事後トレーニング向けに、高性能なオープンソース LLM フレームワークである MaxText の新たな機能強化を公開します。これにより、Supervised Fine-Tuning(SFT)や Generative Reinforcement Policy Optimization(GRPO)などの最新のトレーニングおよび強化学習の最適化手法の実装がより容易になります。

  • 推論については、vLLM における TPU のサポート強化を発表しました。これにより、開発者はわずかな設定変更で GPU と TPU を切り替えたり、両方を同時に実行したりできます。また、GKE Inference Gateway も発表し、TPU サーバー間でインテリジェントに負荷分散を行い、time-to-first-token(TTFT)レイテンシを 最大 96% 削減、提供コストを最大 30% 削減します。

このソフトウェア層により、AI Hypercomputer が大規模かつ要求の厳しい AI ワークロードのトレーニング、チューニング、および提供において、高いパフォーマンスと信頼性を実現できます。データセンター全体のハードウェア最適化からオープン ソフトウェアやマネージド サービスまで、スタック全体にわたる深い統合により、Ironwood TPU はこれまでで最も強力でエネルギー効率に優れた TPU となっています。ハードウェアとソフトウェアの共同設計に対するアプローチについては、こちらをご覧ください。

Axion:汎用コンピューティングを再定義

最新アプリケーションの構築と提供には、高度に専門化されたアクセラレータと、強力で効率的な汎用コンピューティングの両方が必要です。これが、日常的なワークロードに対して優れたパフォーマンス、コスト効率、およびエネルギー効率を提供するよう設計された、当社のカスタム Arm Neoverse® ベース CPU である Axion のビジョンです。

本日、Axion ポートフォリオを以下で拡充します。

  • N4A(プレビュー版)は、当社の第 2 世代汎用 Axion VM であり、マイクロサービス、コンテナ化アプリケーション、オープンソース データベース、バッチ処理、データ分析、開発環境、実験、データ準備、そして AI アプリケーションを支えるウェブ サービング ジョブに最適です。N4A の詳細は、こちらをご覧ください。

  • C4A metal(まもなくプレビュー版公開予定)は、当社初の Arm ベース ベアメタル インスタンスで、Android 開発、車載システム、厳格なライセンス要件を持つソフトウェア、スケール テスト ファーム、または複雑なシミュレーションといった専門的なワークロード向けに専用の物理サーバーを提供します。C4A metal の詳細は、こちらをご覧ください。
https://storage.googleapis.com/gweb-cloudblog-publish/images/5_nH8lIVk.max-2000x2000.png

本日の発表により、Axion ポートフォリオには、N4A、C4A、および C4A metal という 3 つの強力な選択肢が加わります。C シリーズと N シリーズは、パフォーマンスやワークロード固有の要件を損なうことなく、ビジネス運営の総コストを削減できます。

Axion ベースのインスタンス

最適な用途

主な機能

N4A(プレビュー版)

価格性能比と柔軟性

Custom Machine Types、Hyperdisk Balanced および Throughput ストレージをサポートする、最大 64 vCPU、512 GB の DDR5 メモリ、50 Gbps のネットワーキング。

C4A metal(プレビュー版)

ハイパーバイザーやネイティブ Arm 開発などの特殊なワークロード

最大 96 vCPU、768 GB の DDR5 メモリ、Hyperdisk ストレージ、最大 100 Gbps のネットワーキング。

C4A

一貫して高いパフォーマンス

最大 72 vCPU、576 GB の DDR5 メモリ、100 Gbps の Tier 1 ネットワーキング、最大 6 TB のローカル容量を持つ Titanium SSD、高度なメンテナンス制御、そして Hyperdisk Balanced、Throughput、Extreme のサポート。

 

Axion 固有の効率性は、最新の AI ワークフローにとっても貴重な選択肢となります。Ironwood のような専用のアクセラレータがモデル提供の複雑なタスクを担う一方で、Axion は大容量のデータ準備や取り込みをサポートし、インテリジェントなアプリケーションをホストするアプリケーション サーバーを実行するなど、運用のバックボーンにおいて優位性を発揮します。Axion はすでに顧客に影響を与え始めています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_ZB4gdHF.max-900x900.jpg

「Vimeo では、大規模な動画トランスコーディング プラットフォームを効率的に管理するために、長年 Custom Machine Types を利用してきました。新しい Axion ベースの N4A インスタンスに対する初期テストは非常に説得力があり、新たなレベルの効率性を解き放ちました。同等の x86 VM と比較して、中核的なトランスコーディング ワークロードで 30% のパフォーマンス向上を確認しています。これは、運用モデルを変更することなく、ユニット エコノミクスを改善し、サービスをより収益性高くスケールするための明確な道筋を示しています。」— Vimeo ホスティング&デリバリー業務担当 シニア ディレクター Joe Peled 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_3I8oyl8.max-900x900.jpg

「ZoomInfo では、効率が最優先の大規模なデータ インテリジェンス プラットフォームを運営しています。お客様にタイムリーな洞察を提供するために不可欠な、当社の中核的なデータ処理パイプラインは、Dataflow および GKE 内の Java サービスで広範に実行されています。新しい N4A インスタンスのプレビューでは、これらの重要なワークロードにおいて、x86 ベースに対応する同等インスタンスと比較して 60% の価格性能比の向上を計測しました。これにより、プラットフォームをより効率的にスケールし、より迅速により多くの価値をお客様に提供することができます。」— ZoomInfo チーフ インフラストラクチャ アーキテクト Sergei Koren 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_m4GINGe.max-900x900.jpg

「Google Cloud の Axion ポートフォリオへの移行は、当社に決定的な競争優位性をもたらしました。当社の Supply-Side Platform(SSP)バックエンド サービスなどの C4A インスタンスを利用することで、低く安定したレイテンシを維持しながら、コンピューティング消費を 20% 削減しました。さらに、C4A により、インスタンス サイズに関係なく、ステートフル ワークロードに必要な IOPS を正確に備えた Hyperdisk を活用できるようになりました。この柔軟性により、お客様のためにより多くの広告オークションを獲得すると同時に、マージンを大幅に改善できます。現在、当社の API リレー サービスなど、最も柔軟性を必要とする主要なワークロードを実行することで、N4A ファミリーをテストしています。本番環境で実行されているいくつかのアプリケーションが、以前のインフラストラクチャと比較して CPU 消費量を 15% 削減しており、ワークロード特性に必要な適切なインスタンスがバックアップされていることを保証しながら、コストをさらに削減していることについて嬉しく思います。」— Rise クラウド&ソフトウェア アーキテクト Or Ben Dahan 氏

AI と日常的なコンピューティングのための強力な組み合わせ

絶えず変化するモデル アーキテクチャ、ソフトウェア、および技術の時代で優位性を確立するには、モデル トレーニングと提供を担う専用の AI アクセラレータと、AI アプリケーションをサポートするワークロードを含む日常的なワークロードを処理する効率的な汎用 CPU の組み合わせが鍵となります。

Ironwood と Axion を併用する場合も、AI Hypercomputer で利用可能な他のコンピューティング オプションと組み合わせて使用する場合でも、このシステム レベルのアプローチは、最も要求の厳しいワークロードに対応できる究極の柔軟性と機能を提供します。Ironwood、Axion N4A および C4A metal のテストに今すぐお申込みください。

-Amin Vahdat, VP & GM, AI and Infrastructure, Google Cloud
-Mark Lohmeyer, VP & GM, Compute and AI Infrastructure, Google Cloud

投稿先