コンテナ プラットフォームの新たな進化について
Google Cloud Japan Team
※この投稿は米国時間 2023 年 8 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud は、コンテナ化されたワークロードを実行するための最適な場所になるという使命を担ってきました。それは 2014 年に始まり、Google の内部クラスタ管理システムである Borg を元に、Google は Kubernetes を発明し、世界初のマネージド Kubernetes サービスである Google Kubernetes Engine(GKE)を導入しました。GKE は、現在利用できる最もスケーラブルな、業界をリードする Kubernetes サービスです1。2019 年には、当社はコンテナとサーバーレスの利点を組み合わせた初のサーバーレス プラットフォームである Cloud Run をリリースしました。現在 Cloud Run は、クラウド プロバイダの中でトップクラスの開発者エクスペリエンスを提供しています。また Google は、2019 年に Anthos を使用して、GKE をハイブリッド環境とマルチクラウド環境に拡張し、2021 年に GKE に Autopilot モードを導入しました。そしてついに、今年は Google Distributed Cloud によって Anthos の範囲を拡大しました。Google はミッションを継続しており、今年の Next では、コンテナ管理プロダクトの 3 つの機能強化を発表します:
まず、GKE の新しいプレミアム エディションである GKE Enterprise をリリースします。GKE Enterprise を使用することで、企業は複数のチームの速度を向上させ、最も重要なビジネスクリティカルなワークロードを簡単かつ安全に実行し、Google Cloud の完全に統合されたマネージド ソリューションによって総所有コストを削減できます。
次に、次世代 AI アプリケーションを開発している組織向けに、GKE が AI に最適化された Cloud TPU v5e をサポートするようになります。さらに、NVIDIA H100 GPU を搭載した A3 VM と Cloud Storage FUSE の両方のサポートが、GKE で一般提供されるようになります。
3 番目に、生成 AI の力を活用して生産性を向上させたいプラットフォーム チーム向けに、GKE と Cloud Run の Duet AI が、コンテナ化されたアプリケーションの実行にかかる時間を短縮するために、Google のドキュメントで特別にトレーニングされた生成 AI 支援を提供します。
GKE Enterprise: Kubernetes のさらなる進化
GKE Enterprise は、コンテナと Kubernetes における Google Cloud のリーダーシップに基づいて構築されています。GKE と Anthos の長所を、統一されたコンソール エクスペリエンスを備えた統合された直感的なコンテナ プラットフォームに統合します。
GKE Enterprise エディションには、新しいマルチクラスタ機能(「フリート」)が含まれています。これにより、プラットフォーム エンジニアは、類似するワークロードを専用クラスタに簡単にグループ化して、フリートごとにカスタム構成とポリシーのガードレールを適用し、機密性の高いワークロードを分離し、クラスタ管理を他のチームに委任することもできます。GKE Enterprise には、ワークロードの脆弱性に関する高度な分析情報、ガバナンスとポリシーの制御、マネージド サービス メッシュなどのマネージド セキュリティ機能が備わっており、そのすべてが最高の Kubernetes オープンソース エコシステムに基づいています。また、GKE Enterprise は完全に統合されたフルマネージドのプラットフォームであり、シンプルで直感的なコンテキスト内可観測性ダッシュボードを備えているため、お客様はプラットフォームの管理に費やす時間と労力を減らし、自身の顧客に向けた素晴らしいアプリやエクスペリエンスの作成に多くの時間を費やすことができます。さらに、GKE Enterprise にはハイブリッドおよびマルチクラウドのサポートが含まれているため、GKE や他のパブリック クラウド、または Google Distributed Cloud を備えたオンプレミス環境など、どんな場所でもコンテナ ワークロードを実行できます。
つまり、GKE Enterprise を使用すると、分散チームが費用や人員を増やすことなく、より高速かつ安全に、よりビジネス クリティカルなワークロードを大規模に実行できるようになります。実際に、GKE Enterprise はお客様に驚くべき成果をもたらしており、生産性を 45% 向上させ、ソフトウェアのデプロイ時間を 70% 以上短縮しています2。
信用情報プロバイダである Equifax は、世界中に 14,000 人の従業員を擁しており、GKE を使用して業務に重要なデータと分析アプリケーションを実行しています。GKE Enterprise の新しいマルチクラスタ機能とマルチチーム機能を早期に導入した Equifax は、それがもたらすセキュリティ体制と効率の向上に期待しています。
「Google Kubernetes Engine は Equifax のグローバル データファブリックの基盤であり、世界中の Equifax の顧客が経済的に最良の生活を送るのに役立っています。GKE Enterprise エディションを使用することで、フリートを使用して数百のクラスタを効率的に管理し、どこでも運用の一貫性を確保できます。GKE Enterprise エディションの強固なセキュリティとガバナンス制御により、迅速にスケールでき、費用を抑えながら顧客のサービスレベル要件を満たすことができました。」 - Equifax、フェロー兼 SRE リーダー Vipul Mapara 氏
GKE Enterprise エディションは 9 月上旬にプレビュー版として利用可能になります。機能を有効にするには、アカウント マネージャーにお問い合わせください。また、導入パートナーである Accenture、CDW、Deloitte、DoiT International、SADA、Searce、および 66degrees の協力で開始することもできます。
GKE での TPU サポート: AI の成功へのきっかけ
ほぼすべての組織が、ビジネスを加速するために AI をすでに使用しているか、使用する予定です。ML の驚異的な成長は、お客様による Google プロダクトの使用方法に反映されています。現在、GKE の主要顧客 15 社がすでに AI ワークロードの強化に GKE を使用しています。実際、この 1 年間で、GKE での GPU の使用は 2 倍になりました。
組織がより大規模でより高性能な AI モデルを開発し展開するためには、より多くのコンピューティング能力とより費用効率の高い AI アクセラレータが必要になります。新しい Cloud TPU v5e は数万チップまでスケールできるため、より複雑な AI モデルの開発に最適です。Cloud TPU v5e は Cloud TPU v4 と比較して、大規模言語モデル(LLM)と生成 AI モデルにおいて、1 ドルあたりのトレーニング パフォーマンスが最大 2 倍、推論パフォーマンスが最大 2.5 倍向上しています。GKE で Cloud TPU ワークロードを実行すると、自動スケーリング、ワークロード オーケストレーション、最大 15,000 ノードのクラスタ サポートなど、最も成功したお客様の多くが依存している堅牢な機能を活用できます。
Grammarly は、Google Cloud を活用した AI ライティング支援を無料で提供しており、GKE と並行して TPU のテストを開始しています。
「大規模言語モデルの調整に関する研究で、Grammarly は Google Cloud、TPU、JAX の力を利用しました。私たちは、評価した他の多くの同様のプロダクトを上回る、プラットフォームの優れたパフォーマンス、堅牢性、信頼性に感銘を受けました。」 - Grammarly、インテリジェンス担当エンジニアリング ディレクター Max Gubin 氏
GKE でワークロードを実行すると、需要が増加したときにスケールアップし、需要が減少したときにスケールダウンできるため、貴重なコンピューティング サイクルを節約できます。プロビジョニングした TPU リソースに対してのみ料金が発生するため、GKE を使用すれば、必要になるまで TPU のプロビジョニングを遅らせる、またはシャットダウンする、といったことが簡単に行えます。
GKE は、TPU のサポートに加え NVIDIA H100 GPU を搭載した A3 VM の GA サポートを追加しているため、大規模なモデルをトレーニングする場合に最適です。
Google Cloud Storage FUSE は GKE で一般提供されています。これにより、ワークロードが非構造化データ(TensorFlow、PyTorch、Ray、Spark ワークロードなど)を取得する場合、データへのアクセス方法を変更せずに、それらのワークロードを GKE に移動できるようになりました。
GKE と Cloud Run の Duet AI: まとまった生産性
クラウドスキルに対する需要は、対応可能な人材を大幅に上回っています。Google Cloud は、運用チームとプラットフォーム エンジニアリングチームが生産性を向上させ、最も影響力のあるアイデアへの取り組みを支援することを目指しています。今年の初めに、Google Cloud ユーザーがより効果的かつ効率的にタスクを達成できるように、当社は Duet AI for Google Cloud を導入しました。これは、Google の最先端の AI 基盤モデルを活用した常時稼働の AI コラボレーターです。そしてこのたび、GKE や Cloud Run などのランタイムへの Duet AI の導入を発表できることを嬉しく思います。Duet AI により、Google Cloud 上でコンテナを実行しているプラットフォーム チームは、日常的に発生する手動の反復作業の多くを削減できます。GKE と Cloud Run の Duet AI はプレビュー版でご利用いただけます。
コンテナファーストの世界を実現する
Google は、コンテナを実行するのに最適な場所を提供することに尽力しています。最新のイノベーションに基づいて構築されたこれらの新しい機能により、お客様は Cloud Run か GKE、あるいはその両方を使用して、コンテナを使った新しいワークロードを簡単にスケールできるようになります。最近の機能強化、たとえば Cloud Run と Eventarc のインテグレーションにより、BBC などの報道機関は Cloud Run を使用して劇的なトラフィックの急増に対処し、1 分程度で 150 ~ 200 のコンテナ インスタンスを 1,000 以上にスケールし、毎週 4 億 9,800 万人以上の大人たちにエンターテインメントを提供しています。Google はお客様に選択肢を提供することにも注力しています。一部の組織は、GKE と Cloud Run の間でワークロードを移動させています。Carrefour などの組織は、GKE と Cloud Run の両方を併用して新しい e コマース アプリを実行しています。そして最後に、規制や主権の要件に対応している Orange のような通信会社のために、Google Distributed Cloud を使用して GKE をハイブリッド環境に拡張しました。
2014 年以来 Google は、Web アプリケーションの強化に始まり、お客様がクラウドとコンテナを活用してビジネスを変革する AI 主導のビジネスクリティカルなアプリケーションを実行できるようにするまで、長い道のりを歩んできました。現在、これまで以上にお客様のワークロードには無限の可能性があり、当社はお客様のデジタル化への取り組みにおいてお客様と提携できることを楽しみにしています。
1. 2023 年 8 月時点。
2. ソース: Google の委託により Forrester Consulting が実施した調査「The Total Economy Impact™ Of GKE Enterprise」