コンテンツに移動
Containers & Kubernetes

Google Cloud への移行によって Google チップ設計チームにもたらされたメリット

2023年4月5日
https://storage.googleapis.com/gweb-cloudblog-publish/images/Manufacturing_2022_nQ6UniQ.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2023 年 3 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。

編集者注: どの企業にとってもクラウドへの移行は簡単ではありません。これは Google も例外ではありません。そのため、Google Cloud には Alphabet Cloud というチームがあります。このチームのミッションは、Google Cloud への移行を安全かつ円滑に行えるように Alphabet のあらゆるチームを支援することです。こうした内部顧客には、DeepMind、Vertex AI、Waze、そして今回取り上げる Google のチップ開発インフラストラクチャ チームが含まれます。このチームの Google Cloud への移行は、オンプレミス インフラストラクチャの制限を取り除くことで、チームの可能性を解き放ち、開発者のイノベーション(この場合は、将来のクラウド インフラストラクチャを支える革新的なチップセット)を可能にする方法を示しています。

Google は、検索ツール、Google マップなどのソフトウェア サービス、Android でよく知られていますが、独自の専用ハードウェアも開発しています。Google は、ML スーパーコンピュータ、Google Pixel、ネットワーク インフラストラクチャ、さらには YouTube 用のビデオ アクセラレータに使用されるチップを自社で設計、製造しています。

Video Thumbnail

Google Cloud に移行するまで

チップ開発インフラストラクチャ チームはデータセンターのラック 1 架規模のコンピュータから始まりましたが、ワークロードがより複雑になるにつれて、すぐに数十架のラックと数百のサーバーにまで成長しました。プロジェクトが増え始めると、ハードウェアの費用が毎年倍増し、新しい取り組みのたびに新しいエンジニアとインフラストラクチャが必要になるなど、実装の課題も増えました。チームが単にレガシーマシンの管理と最適化のためにエンジニアを採用することを優先していたとき、彼らは成長とイノベーションという本来注力すべき点を見失っていることに気づきました。

Google Cloud に完全に移行する前に、チームは Google 社内のソフトウェア設計環境と、Google Cloud に送信された電子設計自動化(EDA)ワークロードを使用するハイブリッド ソリューションを検討しました。このアプローチは短期的には信頼できるものでしたが、分析のためのワークロードの転送が遅れると、エンジニアは結果を待たざるを得ませんでした。2 台のデスクトップ(1 つは設計環境用、もう 1 つは Google Cloud での結果用)を同時に実行するという追加の負担も再考につながりました。

チップ開発インフラストラクチャ チームは、このハイブリッド アプローチの課題を最小限に抑えられる、より優れたソリューションがあると考え、Alphabet Cloud チームに連絡を取りました。Alphabet Cloud チームは Google Cloud 内にあり、お客様のプラットフォーム チームと同様に、Alphabet 内のチームが Google Cloud 独自のサービスの導入を加速して、開発とスケーリングを迅速に行えるように支援する責任を負っています。

Google Cloud の利用への移行

チップ開発インフラストラクチャ チームは、Alphabet Cloud と協力して、Google Cloud への完全な移行に取り組みました。現在のインフラストラクチャを徹底的に評価した後、分析により、コンテナ用に Google Kubernetes Engine(GKE)、データ用に Cloud StorageFilestoreCloud SpannerBig QueryPub/Sub が最も有益な Google Cloud ツールであることが明らかになりました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Google_Cloud_Tools_Used_By_The_Chip_Desi.max-1000x1000.jpg

この Google Cloud への移行はビジネス上、大きなメリットをもたらしました。最初のメリットはクラウドの弾力性でした。具体的には、オンデマンドで拡張できることと、リソースを迅速かつ効率的にリクエストできることでした。新しい専用のコンピューティング インフラストラクチャをプロビジョニングするためのリードタイムは、6 か月からわずか数日に短縮されました。もう一つのメリットは運用費用の削減でした。これにより、はるかに大きなフットプリントを管理できるようになりました。Google Cloud を使用すると、インフラストラクチャのバグを数時間以内に特定して解決できました。また、データセンターのメンテナンスに費やす時間が減ったため、チームはイノベーションを加速できました。

リソース管理以外のメリットとして、チームは Google Cloud の AI と ML の機能を活用して、より効率的なチップを設計できました。Google Cloud ですぐに利用できるさまざまな ML アルゴリズムを活用して、大規模な検索空間を効率的にナビゲートし、チップ設計のさまざまな段階で独自の最適化を行いました。その結果、チップ設計プロセスや市場投入までの時間が短縮され、ML アクセラレータのプロダクト分野が拡大し、効率が向上しました。

チップ設計チームは、過去 2 世代の TPU や YouTube のビデオ アクセラレーション プログラムである Argos VCU など、Google Cloud を使用して構築された完全な設計をリリースしました。物理的なデータセンターのサイズ制限がなくなったため、チップ設計者はより多くのジョブを実行してバグを取り除くことができました。Google Cloud に移行して以来、チームはスケジュール設定のレイテンシを一定に保ちながら、過去 1 年間で毎日のジョブ送信を 170% 増加させました。ワークロードは、複数の Google Cloud リージョンにまたがる 250 以上の GKE クラスタでサポートされています。このプラットフォームは、Google Cloud でジョブを実行するために必要な EDA ツール ライセンスへのアクセスも仲介します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2-TPU-V2-in-Data-Center.max-1500x1500.jpg
データセンター内の TPU V2

未来を見据えて

Google Cloud の AI およびデータ機能により、チップ開発インフラストラクチャ チームは、リソースの使用量を予測できるため、結果としてコンピューティング リソースの使用量を減らすことができます。Google Cloud で利用可能な大容量ストレージにより、すべてのメタデータにアクセスできるため、チップ設計チームはデータ ストレージ タイプを最適化して、ジョブに対して最速のメディアを実現できます。チップの設計と開発の効率は、今後も向上し続けるでしょう。将来的に、チップ開発インフラストラクチャ チームは、そのプロセスの一部、具体的には Bazel ビルドルールと回帰システムをオープンソース化する予定です。これにより、Google Cloud でチームが使用したアプローチから、他のチップメーカーもメリットを得ることができます。

他の企業が Google Cloud を使用してどのようにチップを設計しているかについては、まずこちらをご覧ください。


- プロダクト マーケティング マネージャー Lital Levy
- デベロッパー アドボケイト Bukola Ayodele
投稿先