Cloud TPU
機械学習モデルのトレーニングと実行をこれまで以上に高速化。
Google Cloud AI でビジネスを支援
Google Cloud の AI 向けに開発
Cloud TPU は Google Cloud の AI サービスを使用して、最先端の機械学習モデルを実行するように設計されています。そして、そのカスタム高速ネットワークは、1 つの Pod で 100 PFLOPS 以上のパフォーマンスを発揮します。ビジネスを変革し、次の研究で画期的な成果を上げるのに十分な計算能力を備えています。
ML ソリューションでのイテレーションの高速化
機械学習モデルのトレーニングはコードのコンパイルに似ています。頻繁に、かつできるだけ効率的に更新する必要があります。また、アプリの構築、デプロイ、調整に伴い、ML モデルを繰り返しトレーニングする必要もあります。Cloud TPU はパフォーマンスが堅牢で低コストなため、ソリューションで迅速かつ頻繁なイテレーションを行う機械学習チームにとって理想的です。
定評ある最新のモデル
現実世界の多くのユースケースに対応する、独自の機械学習型ソリューションを構築できます。データを取り込み、Google によって最適化された参照モデルをダウンロードしてトレーニングを開始するだけです。
お客様とパートナー
Cohere では、言語生成、分類、検索用の API など、最先端の自然言語処理(NLP)サービスを構築しています。これらのツールは、Cohere が JAX を使用して Cloud TPU でゼロからトレーニングする一連の言語モデル上に構築されています。Cloud TPU v3 Pod から Cloud TPU v4 Pod に移行した場合に、最大モデルのトレーニング時間が 70% 短縮されました。これにより、研究者のイテレーションが高速になり、お客様に対してより高品質な結果を提供できるようになりました。Cloud TPU v4 Pod の二酸化炭素排出量が極めて低いことも、私たちにとってもう一つの重要な要素でした。」
CEO 兼共同創設者 Aidan Gomez 氏
「LG AI Research は戦略的な研究パートナーとして、Google の最新機械学習スーパーコンピュータである TPU v4 の商品化前のテストに参加し、3,000 億個のパラメータをスケーリングする超巨大 AI である LG EXAONE のトレーニングを行いました。LG EXAONE は、コミュニケーション、生産性、創造性など多くの側面について人間の専門家を上回ることを目標に、TPU v4、膨大な量のデータ、6,000 億件を超えるテキスト コーパスと 2 億 5,000 万個の画像を使用してトレーニングを行いました。TPU v4 のパフォーマンスが他の最高水準のコンピューティング アーキテクチャを上回っただけでなく、顧客指向のサポートも期待を上回っていました。Google と協力することができ、戦略的パートナーシップを強化して、究極のビジョンを実現し、AI をより快適なものにするべく期待できることを光栄に思います。」
LG AI Research 責任者、Kyunghoon Bae 博士
「TPU v4 への早期アクセスにより、CodeGen プロジェクトを使用して、会話型 AI プログラミングの飛躍的な進歩を達成できました。CodeGen プロジェクトは、160 億個のパラメータ自動回帰言語モデルであり、単純な英語のプロンプトを実行可能なコードに変換します。このモデルのサイズが大きいことは、トレーニング サンプルの数に比例してモデル パラメータの数をスケーリングすると、モデルのパフォーマンスが厳密に向上するという経験的観察の結果です。この現象はスケーリング法と呼ばれます。TPU v4 は、この種のスケールアウト型 ML トレーニングに最適なプラットフォームであり、同等の他の AI ハードウェアに比べ優れたパフォーマンスを発揮します。」
Salesforce 社、リサーチ サイエンティスト、Erik Nijkamp 氏
「2, 000 人の IT 部門の意思決定者を対象にした最近の調査では、AI プロジェクトの失敗の多くは不適切なインフラストラクチャ機能が根本原因であることがわかりました。企業における目的特化型 AI インフラストラクチャの重要性が増大する中、Google はこれに対応するため、9 エクサフロップの集約演算が可能な新しい機械学習クラスタをオクラホマ州で立ち上げました。これは世界最大の一般利用可能な ML ハブであると考えることができ、オペレーションの 90% がカーボンフリー エネルギーで動作可能であるとして報告されています。このような取り組みは、持続可能性を意識した AI インフラストラクチャの革新への Google の継続的なコミットメントを示すものです。」
IDC シニア バイス プレジデント、エンタープライズ インフラストラクチャ、クラウド、通信、セキュリティ、デベロッパー、チャネル、技術支援担当 Matt Eastwood 氏
機能
モデル ライブラリ
増加を続ける Cloud TPU 用に最適化されたモデルのライブラリを活用することですぐに使い始めることができます。画像分類、オブジェクト検出、言語モデリング、音声認識などにおいて、最適なパフォーマンス、精度、品質が提供されます。
Cloud TPU からカスタム マシンタイプへの接続
カスタムタイプの Deep Learning VM Image から Cloud TPU に接続できるので、ワークロードに合わせてプロセッサ速度、メモリ、高パフォーマンス ストレージ リソースの最適なバランスを維持できます。
Google Cloud と完全統合
基本的に、Cloud TPU と Google Cloud のデータおよび分析サービスは、Google Kubernetes Engine(GKE)などの他の Google Cloud サービスと完全に統合されています。そのため、Cloud TPU で機械学習ワークロードを実行すると、業界をリードする Google Cloud のストレージ、ネットワーキング、データ分析テクノロジーを活用できます。
プリエンプティブル Cloud TPU
チェックポインティングを設けた長時間のトレーニングや、大規模なデータセットのバッチ予測など、フォールト トレラントな機械学習のワークロードにプリエンプティブル Cloud TPU を利用すれば、コストを抑えられます。プリエンプティブル Cloud TPU は、オンデマンド インスタンスと比較して 70% 安価です。初回の試験運用から大規模なハイパーパラメータ検索にいたるまで、大幅に費用を低減できます。
技術リソース
$300 分の無料クレジットと 20 種類以上の Always Free プロダクトを活用して Google Cloud で構築を開始しましょう。
プロジェクトを開始してインタラクティブなチュートリアルを体験し、アカウントを管理しましょう。
Cloud AI プロダクトは Google Cloud SLA ポリシーを遵守しています。これらの SLA ポリシーで保証されているレイテンシや可用性は、他の Google Cloud サービスと異なる場合があります。