TPU が適しているかどうかわからない場合は、 ML ワークロードを実行するために、どんな場面で Compute Engine インスタンスの GPU または CPU を使用できるかについて学習してください。
概要
Google Cloud TPU は、カスタム設計された AI アクセラレータで、AI モデルのトレーニングと推論向けに最適化されています。エージェント、コード生成、メディア コンテンツ生成、合成音声、ビジョン サービス、レコメンデーション エンジン、パーソナライズ モデルなど、さまざまなユースケースに最適です。TPU は Gemini と、検索、フォト、マップなどの Google の AI 搭載アプリケーションすべてを支え、10 億人以上のユーザーにサービスを提供しています。
Cloud TPU は、トレーニング、微調整、推論といった幅広い AI ワークロードに対して、費用効率の高い方法でスケーリングできるように設計されています。Cloud TPU は、PyTorch、JAX、TensorFlow などの主要な AI フレームワークでワークロードを高速化する多用途性を提供します。Google Kubernetes Engine(GKE)に Cloud TPU を統合することで、大規模な AI ワークロードをシームレスにオーケストレートできます。Dynamic Workload Scheduler を利用して、同時に必要となるアクセラレータをすべてスケジュールし、ワークロードのスケーラビリティを向上させます。AI モデルを簡単に開発する方法をお探しの場合は、フルマネージド AI プラットフォームである Vertex AI で Cloud TPU を活用することもできます。
GPU は、元々コンピュータのグラフィックを操作するために設計された専用プロセッサです。その並列構造は、AI ワークロードでよく見られる大量のデータブロックを処理するアルゴリズムに最適です。詳細
TPU は、Google がニューラル ネットワーク用に設計したアプリケーション固有の集積回路(ASIC)です。TPU は、行列乗算ユニット(MXU)や独自の相互接続トポロジなど、AI のトレーニングと推論の高速化に最適な特殊機能を備えています。
Cloud TPU のバージョン
Cloud TPU バージョン | 説明 | 対象 |
---|---|---|
Trillium | 最先端の Cloud TPU | プレビュー版の Trillium は、北米(米国東部リージョン)、ヨーロッパ(西部リージョン)、アジア(北東部リージョン)でご利用いただけます |
Cloud TPU v5p | AI モデルのトレーニングに最適な Cloud TPU です。 | Cloud TPU v5p は北米(米国東部リージョン)で一般提供されます |
Cloud TPU v5e | トレーニングと推論のニーズに対応する汎用的な Cloud TPU | Cloud TPU v5e は、北米(米国中部/東部/南部/西部リージョン)、ヨーロッパ(西リージョン)、アジア(東南リージョン)で一般提供されます |
Cloud TPU のバージョンに関する詳細情報
Trillium
最先端の Cloud TPU
プレビュー版の Trillium は、北米(米国東部リージョン)、ヨーロッパ(西部リージョン)、アジア(北東部リージョン)でご利用いただけます
Cloud TPU v5p
AI モデルのトレーニングに最適な Cloud TPU です。
Cloud TPU v5p は北米(米国東部リージョン)で一般提供されます
Cloud TPU v5e
トレーニングと推論のニーズに対応する汎用的な Cloud TPU
Cloud TPU v5e は、北米(米国中部/東部/南部/西部リージョン)、ヨーロッパ(西リージョン)、アジア(東南リージョン)で一般提供されます
Cloud TPU のバージョンに関する詳細情報
一般的な使用例
LLM のトレーニングは錬金術のように思えるかもしれませんが、モデルのパフォーマンスを理解して最適化するのに、その必要はありません。この本は、TPU で言語モデルをスケーリングする科学をわかりやすく説明することを目的としています。TPU の仕組みや相互通信の仕組み、実際のハードウェアでの LLM の動作、大規模なスケールで効率的に実行できるようにトレーニングと推論中にモデルを並列処理する方法などについて説明しています。
Cloud TPU によりパフォーマンスと効率が最大となり、最短時間で価値を実現できます。Cloud TPU マルチスライス トレーニングにより、数千のチップまでスケールできます。ML Goodput Measurement を使用して、大規模な ML トレーニングの生産性を測定し、向上させます。大規模モデルのトレーニング用のオープンソース リファレンス デプロイである MaxText と MaxDiffusion は、すぐに使用開始できます。
LLM のトレーニングは錬金術のように思えるかもしれませんが、モデルのパフォーマンスを理解して最適化するのに、その必要はありません。この本は、TPU で言語モデルをスケーリングする科学をわかりやすく説明することを目的としています。TPU の仕組みや相互通信の仕組み、実際のハードウェアでの LLM の動作、大規模なスケールで効率的に実行できるようにトレーニングと推論中にモデルを並列処理する方法などについて説明しています。
Cloud TPU によりパフォーマンスと効率が最大となり、最短時間で価値を実現できます。Cloud TPU マルチスライス トレーニングにより、数千のチップまでスケールできます。ML Goodput Measurement を使用して、大規模な ML トレーニングの生産性を測定し、向上させます。大規模モデルのトレーニング用のオープンソース リファレンス デプロイである MaxText と MaxDiffusion は、すぐに使用開始できます。
JetStream と MaxDiffusion で AI 推論を加速します。JetStream は、大規模言語モデル(LLM)推論専用に設計された新しい推論エンジンです。JetStream はパフォーマンスと費用対効果の両方を大幅に向上させるソリューションであり、Google Cloud TPU での LLM の推論のスループットとレイテンシの面で強みを発揮します。MaxDiffusion は Cloud TPU 用に最適化された拡散モデル実装のセットで、高パフォーマンスな Cloud TPU 上で拡散モデルの推論が簡単に実行できるようになります。
Cloud TPU v5e では、最新の LLM や生成 AI モデルなどの幅広い AI ワークロードに対して、高性能で費用対効果の高い推論を行えます。TPU v5e では、Cloud TPU v4 と比較して、$1 あたりのスループット パフォーマンスが最大 2.5 倍、速度が最大 1.7 倍になります。TPU v5e チップごとに 1 秒あたり最大 393 兆の int8 オペレーションを行うため、複雑なモデルで素早く予測できます。TPU v5e Pod は、1 秒あたり最大 10 京の int8 オペレーション、つまり 100 petaOps の計算能力を実現します。
JetStream と MaxDiffusion で AI 推論を加速します。JetStream は、大規模言語モデル(LLM)推論専用に設計された新しい推論エンジンです。JetStream はパフォーマンスと費用対効果の両方を大幅に向上させるソリューションであり、Google Cloud TPU での LLM の推論のスループットとレイテンシの面で強みを発揮します。MaxDiffusion は Cloud TPU 用に最適化された拡散モデル実装のセットで、高パフォーマンスな Cloud TPU 上で拡散モデルの推論が簡単に実行できるようになります。
Cloud TPU v5e では、最新の LLM や生成 AI モデルなどの幅広い AI ワークロードに対して、高性能で費用対効果の高い推論を行えます。TPU v5e では、Cloud TPU v4 と比較して、$1 あたりのスループット パフォーマンスが最大 2.5 倍、速度が最大 1.7 倍になります。TPU v5e チップごとに 1 秒あたり最大 393 兆の int8 オペレーションを行うため、複雑なモデルで素早く予測できます。TPU v5e Pod は、1 秒あたり最大 10 京の int8 オペレーション、つまり 100 petaOps の計算能力を実現します。
堅牢な AI / ML プラットフォームでは、(i)トレーニング ワークロードとサービング ワークロードのための GPU を大規模にサポートするインフラストラクチャ オーケストレーション、(ii)分散コンピューティングとデータ処理フレームワークとの柔軟な統合、(iii)リソースを最大限に活用するための同じインフラストラクチャ上での複数チームのサポート、というレイヤが考慮されます。
Cloud TPU の能力と、GKE の柔軟性およびスケーラビリティを組み合わせることで、ML モデルをこれまで以上に迅速かつ簡単に構築してデプロイできます。GKE で利用できる Cloud TPU により、すべてのワークロードに対して一貫性のある単一の運用環境を構築し、自動化された MLOps パイプラインを標準化できるようになります。
堅牢な AI / ML プラットフォームでは、(i)トレーニング ワークロードとサービング ワークロードのための GPU を大規模にサポートするインフラストラクチャ オーケストレーション、(ii)分散コンピューティングとデータ処理フレームワークとの柔軟な統合、(iii)リソースを最大限に活用するための同じインフラストラクチャ上での複数チームのサポート、というレイヤが考慮されます。
Cloud TPU の能力と、GKE の柔軟性およびスケーラビリティを組み合わせることで、ML モデルをこれまで以上に迅速かつ簡単に構築してデプロイできます。GKE で利用できる Cloud TPU により、すべてのワークロードに対して一貫性のある単一の運用環境を構築し、自動化された MLOps パイプラインを標準化できるようになります。
AI モデルを簡単に開発する方法をお探しのお客様は、低レイテンシのサービス提供と高パフォーマンスのトレーニングに特化したフルマネージド インフラストラクチャ上で AI モデルを構築するためのエンドツーエンドのプラットフォームである Vertex AI を使用して、Cloud TPU v5e をデプロイできます。
AI モデルを簡単に開発する方法をお探しのお客様は、低レイテンシのサービス提供と高パフォーマンスのトレーニングに特化したフルマネージド インフラストラクチャ上で AI モデルを構築するためのエンドツーエンドのプラットフォームである Vertex AI を使用して、Cloud TPU v5e をデプロイできます。
料金
Cloud TPU の料金 | すべての Cloud TPU の料金はチップ時間単位です | ||
---|---|---|---|
Cloud TPU バージョン | 評価価格(米ドル) | 1 年間のコミットメント(米ドル) | 3 年間のコミットメント(米ドル) |
Trillium | Starting at $2.7000 チップ時間あたり | Starting at $1.8900 チップ時間あたり | Starting at $1.2200 チップ時間あたり |
Cloud TPU v5p | Starting at $4.2000 チップ時間あたり | Starting at $2.9400 チップ時間あたり | Starting at $1.8900 チップ時間あたり |
Cloud TPU v5e | Starting at $1.2000 チップ時間あたり | Starting at $0.8400 チップ時間あたり | Starting at $0.5400 チップ時間あたり |
Cloud TPU の料金は、プロダクトとリージョンによって異なります。
Cloud TPU の料金
すべての Cloud TPU の料金はチップ時間単位です
Trillium
Starting at
$2.7000
チップ時間あたり
Starting at
$1.8900
チップ時間あたり
Starting at
$1.2200
チップ時間あたり
Cloud TPU v5p
Starting at
$4.2000
チップ時間あたり
Starting at
$2.9400
チップ時間あたり
Starting at
$1.8900
チップ時間あたり
Cloud TPU v5e
Starting at
$1.2000
チップ時間あたり
Starting at
$0.8400
チップ時間あたり
Starting at
$0.5400
チップ時間あたり
Cloud TPU の料金は、プロダクトとリージョンによって異なります。