コンピューティングでの Arm VM


Google Cloud の Compute Engine には、C4A マシンシリーズと A4X マシンシリーズから利用できるさまざまな Arm 搭載サーバーが用意されています。Arm アーキテクチャは電力効率を重視して最適化されているため、優れたコスト パフォーマンスを発揮します。

Arm は、x86 サーバーに比べて電力効率が優れているため、標準サーバーで一般的なプロセッサとなっています。Arm プロセッサ上で動作するデバイスとしては、スマートフォンやノートパソコンなどがあります。Arm CPU は命令セットが少ないため、バッテリーと消費電力を抑えながら、より少ない命令数でより高い処理能力を発揮します。

たとえば、C4A では、Arm Neoverse V2 プロセッサをベースにした Google のカスタム Arm プロセッサである Axion を使用しています。Neoverse V2 は、Armv9 のパフォーマンス、電力、セキュリティが強化された最初の V シリーズ CPU です。ハイ パフォーマンス コンピューティング、機械学習、汎用クラウド コンピューティング向けに設計されています。次のような場合は、C4A 汎用 Arm 仮想マシン(VM)の使用を検討してください。

  • 必要に応じて使用量を迅速にスケーリングする必要があるコンピューティング負荷の高いワークロードを実行する。
  • Arm 互換のワークロードでコスト パフォーマンスを最適化する。
  • 最新のオープンソース ソフトウェア スタック上に構築する。
  • Arm CPU を使用するモバイル システムまたは組み込みシステムを開発してテストする。
  • ワークロードが Arm CPU に適しているかどうかを評価する。

Arm ベースの CPU で GPU を使用するには、NVIDIA GB200 NVL72 プラットフォームで実行される A4X マシンシリーズを選択します。このマシンシリーズを使用して作成された VM には、NVIDIA GB200 Grace Blackwell Superchip がアタッチされています。このマシンシリーズは、機械学習(ML)やハイ パフォーマンス コンピューティング(HPC)などの超並列 CUDA(Compute Unified Device Architecture)コンピューティング ワークロード用に最適化されています。

A4X マシンシリーズ

A4X は、Arm ベースの CPU とアタッチされた GPU の両方を備えた最初の Compute Engine VM です。A4X には、最大で 140 個の vCPU と 884 GB のメモリを備えたマシンタイプがあります。A4X で使用している NVIDIA GB200 GPU は、GPU あたり 180 GB のメモリを提供します。A4X には、NVIDIA Grace Arm CPU を高速チップ間(NVLink C2C)通信で 4 つの B200 GPU に接続した 2 つのソケットがあります。A4X は a4x-highgpu-4g マシンタイプで使用できます。

A4X インスタンスのストレージ オプション

A4X は、Google Cloud Hyperdisk アタッチ ストレージで使用でき、12,000 GiB のローカル SSD が付属しています。Compute Engine は、インスタンスの作成時にローカル SSD ディスクを A4X インスタンスに自動的にアタッチします。

OS イメージ

A4X インスタンスは、Arm ベースの公開 OS イメージをサポートしています。Arm ベースの公開 OS イメージを使用してカスタム イメージを作成することもできます。

C4A マシンシリーズ

C4A は、Google の Axion Arm64 ベースの CPU 上に構築された最初の Arm ベースの VM です。C4A には、最大 72 個の vCPU と 576 GB の DDR5-5600 メモリを備えたマシンタイプがあります。C4A は、standardhighmemhighcpu の各マシンタイプで使用できます。

C4A は Titanium 上に構築されており、ネットワーク オフロードを使用し、gVNIC ネットワーク インターフェースで VM あたり最大 100 Gbps の Tier_1 ネットワーキング パフォーマンスを実現します。C4A は、Hyperdisk Balanced ディスクと Hyperdisk Extreme ディスクを使用する NVMe ディスク インターフェースもサポートしています。

同時マルチスレッディング

C4A マシンシリーズでは、各 vCPU は、同時マルチスレッディング(SMT)が有効でない単一のコアを基盤としています。したがって、SMT を有効にした VM と比べると、C4A VM は vCPU あたりのパフォーマンスが高くなります。SMT は特定のワークロードにメリットがありますが、コンピューティング負荷の高いワークロードにはシングルスレッド コアが適しています。これは、プロセス間でコアが共有されることなく、プロセスがコア全体にアクセスできるためです。

OS イメージ

C4A VM は、Arm ベースの公開 OS イメージをサポートしています。一般公開されている Arm ベースのイメージを使用してカスタム イメージを作成することもできます。

Tau T2A マシンシリーズ

Tau T2A Arm マシンシリーズは、64 コア Ampere Altra Arm プロセッサで動作し、全コア周波数は 3.0 GHz です。Tau T2A により Arm 上でワークロードを最適または排他的に実行できます。

Tau T2A マシンシリーズには、最大 48 個の物理コアと vCPU あたり 4 GB のメモリを備えた事前定義済みマシンタイプがあります。Tau T2A マシンタイプは、単一の NUMA ノード内で実行されます。

Tau T2A マシンタイプは、ストレージには NVMe インターフェースのみをサポートし、ネットワーキングには Google Virtual NIC(gVNIC)のみをサポートします。Virtio-Net インターフェースと SCSI インターフェースはサポートされていません。一般公開されているすべての Arm OS イメージは、NVMe インターフェースと gVNIC インターフェースを使用するように構成されています。gVNIC は、Compute Engine 専用に設計されたネットワーク インターフェースです。パフォーマンスを向させ、より高いネットワーク帯域幅とスループットをサポートします。

このマシンシリーズでは、各 vCPU が、同時マルチスレッディング(SMT)が有効でない単一のコアを基盤としています。

ワークロードの最適化案

C4A マシンシリーズは、さまざまなスケールアウト ワークロードやコンピューティング負荷の高いワークロードに最適です。特に、費用対効果が重要な懸念事項である場合に適しています。次のようなワークロードをデプロイする場合は、C4A を検討してください。

  • ML データ処理
  • ML 推論とモデルのサービング
  • アプリ配信、ウェブ配信、ゲーム配信
  • 組み込みシステムの開発
  • ARM での CI / CD による開発
  • 動画と画像のエンコード、コード変換、処理
  • デジタル広告のエクスチェンジと配信
  • キャッシュ サーバー
  • コンピュータによる創薬
  • Android 開発
  • 自律型自動車と従来型自動車のソフトウェア開発

次のステップ