コンピューティング

Google Cloud IaaS が突出している 10 の特長

2021年10月19日

Google Cloud Japan Team

※この投稿は米国時間 2021 年 10 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。

Google Cloud でビジネスを運営すると、マップ、YouTube、Workspace など、Google プロダクトの基盤になっているのと同じグローバルインフラストラクチャを利用できるというメリットがあります。

運用の簡素化、費用の節約、データの保護において市場に類を見ない Google Cloud インフラストラクチャサービスが特出している 10 の特長をご紹介します。

1. リソースの無駄がないカスタムマシンタイプ

Compute Engine は、VM インスタンスの作成時に使用できる事前定義されたマシンタイプを提供しています。事前定義されたマシンタイプには、vCPU の数とメモリ容量がプリセットされており、それぞれのタイプは Compute Engine の料金のページに記載されているとおりにセット価格で課金されます。

事前定義されたマシンタイプがニーズに合わない場合は、vCPU の数とメモリ容量をカスタマイズした VM インスタンスを作成し、カスタムマシンタイプを効果的にビルドできます。カスタムマシンタイプは、汎用マシンファミリーでのみ使用できます。カスタムマシンタイプを作成する場合、GCP の E2、N2、N2D、N1 のいずれかのマシンファミリーからカスタムマシンタイプをデプロイすることになります。 これほど広範囲にカスタムマシンタイプを提供している大手クラウドベンダーは他にありません。

カスタムマシンタイプは、事前定義されたマシンタイプに適していないワークロードや、処理能力やメモリが不足しているものの、一段階上のマシンタイプほどリソースが必要なわけではないワークロードにおすすめです。これにより、運用コストの削減が可能になります。また、基盤となるコンピューティングコアの数に基づいたソフトウェアライセンス費用の管理にも役立ちます。

Google パートナー Appsbroker 社インフラストラクチャおよびアプリケーションモダナイゼーション主任 Jeremy Lloyd 氏:

「Google の StratoZone データセンター検出ツールと組み合わされたカスタムマシンタイプにより、Appsbroker は、実際の使用率に合った費用効率の高い仮想マシンを提供するために必要な柔軟性が得られています。その結果、お客様の運用コストを抑えつつ、ニーズに柔軟に応えられるスケーラビリティを提供できるようになりました。」

2. スケールアウト型ワークロード用に最適化された Compute Engine 仮想マシン

スケールアウト型ワークロード向けの T2D は、Tau VM ファミリーの最初のインスタンスタイプで、第 3 世代 AMD EPYC プロセッサをベースとしています。そのため、パフォーマンスと費用効率のいずれの点においても、スケールアウト型ワークロードに適しています。Tau VM を使用すると、主要なパブリッククラウドベンダーの汎用 VM と比べて、絶対的パフォーマンスが 56%、コストパフォーマンスが 42% 向上します（参照元）。こうした AMD EPYC プロセッサベースの VM によって x86 互換性が提供されるため、市場をリードするパフォーマンスの向上と費用の節約を実現でき、アプリケーションを新しいプロセッサアーキテクチャに移植する必要がありません。T2D インスタンスのプレビューをお試しになりたい方は、こちらからご登録ください。

SAP HANA については、Google Cloud は SAP と共同で、世界最大のスケールアウト HANA システム（96 TB）をパブリッククラウドでどのように実行できるかを実証しました。このようなイノベーションにより、お客様のビジネスの飛躍的な成長に対応できます。

3. 最大の GPU 対応シングルノード VM

Google は単一の VM に NVIDIA A100 GPU を最大 16 基提供する唯一のパブリッククラウドプロバイダであり、利用することで大規模な AI モデルのトレーニングが可能になります。ユーザーは単一ノードの ML トレーニング用に複数の VM を構成することなく、NVIDIA A100 GPU 1 基で開始して、最大 16 基までスケールアップできます。VM レイヤをまたぐ必要もありません。

さらに、小規模の GPU 構成（VM あたりの GPU 数が 1、2、4、8）を選ぶこともでき、必要に応じて柔軟にワークロードをスケーリングできます。

A2 VM ファミリーは、CUDA による機械学習（ML）トレーニングや推論など、非常に厳しい要件が求められる最新のアプリケーションのために設計されました。このファミリーは、旧世代の GPU と比較して最大 20 倍の処理パフォーマンスを誇る A100 GPU をベースに構築されており、40 GB の高性能 HBM2 GPU メモリを搭載しています。複数の GPU ワークロードを高速化させるために、A2 VM は NVIDIA の HGX A100 システムを使用して、NVLink による最大 600 GB/秒の高速な GPU 間の帯域幅を実現しています。A2 VM では、最大 96 個の Intel Cascade Lake vCPU、GPU への高速なデータフィードを必要とするローカル SSD（オプション）、最大 100 Gbps のネットワーキングをご利用いただけます。A2 VM では、基盤となる GPU サーバープラットフォームのアーキテクチャが vNUMA により完全に透明化され、高度なパフォーマンスチューニングが実現します。Google Cloud は、これらの GPU をグローバルに提供しています。

4. 中断のないメンテナンス更新で計画的ダウンタイムの心配を軽減

Google の Compute Engine には、ホストシステムでソフトウェアやハードウェアの更新などのイベントが発生した場合でも、仮想マシンインスタンスの稼働を継続させるライブマイグレーション（中断のないメンテナンス更新）が用意されています。VM を再起動しなくても、同じゾーンの別のホストへ、実行中のインスタンスをライブで移行することが可能です。ライブマイグレーションにより、Google はインフラストラクチャの保護と信頼性を維持するために不可欠なメンテナンスを、VM の実行を中断することなく実行できます。VM がライブマイグレーションされるようスケジュール設定されている場合、Google は、ゲストに移行が間近であることを知らせる通知を行います。

ライブマイグレーションにより、次の場合でもインスタンスの実行を継続することができます。

インフラストラクチャの定期的なメンテナンスやアップグレード
データセンターのネットワークと送電網の点検
メモリ、CPU、ネットワークインターフェースカード、ディスク、電源装置などのハードウェアの障害。これは、ベストエフォートで行われます。ハードウェアのコンポーネントが完全に故障した場合やライブマイグレーションができない場合、VM がクラッシュして自動的に再起動し、hostError がログに記録されます。
ホストの OS と BIOS のアップグレード
セキュリティに関する更新
ホストのルートパーティションのサイズ、ホストイメージやパッケージのストレージなど、システム構成の変更

ライブマイグレーションによって VM 自体の属性やプロパティが変更されることはありません。ライブマイグレーションでは、実行中の VM が同じゾーンのホストマシン間で転送されます。内部 / 外部 IP アドレス、インスタンスのメタデータ、ブロックストレージのデータとボリューム、OS とアプリケーションの状態、ネットワークの設定、ネットワーク接続など、VM のプロパティと属性はすべてそのまま使用されます。これには、運用上およびメンテナンス上のオーバーヘッドを軽減するメリットがあり、インフラストラクチャを既知の良好な状態から意図的に改良することでより堅牢なセキュリティを構築し、高度な持続型の脅威のリスクを最小限に抑えます。

詳しくは、Google エンジニアリングチームによる Google Cloud の本番環境でライブマイグレーションを 1 年間使用して得た教訓をご覧ください。

5. Trusted Computing: 高度な持続的攻撃を防ぐ Shielded VM

環境の信頼性の確立には、ハードウェアやファームウェア、ホストおよびゲストのオペレーティングシステムなど、さまざまな要素が含まれます。残念ながら、ブートマルウェアやファームウェアルートキットのような脅威は長期間検出されないことがあり、感染した仮想マシンは正規のソフトウェアをインストールした後でも、不正使用のステータスでのブートを継続することがあります。

Shielded VM は、次のような攻撃ベクトルからシステムを保護するために役立ちます。

不正 UEFI 拡張機能を含む、悪意のあるゲスト OS ファームウェア
ゲスト OS のブートおよびカーネルの脆弱性
組織内の悪意のある内部関係者

このような高度な持続的攻撃を防ぐために、Shielded VM は以下を使用します。

Unified Extensible Firmware Interface（UEFI）BIOS: ファームウェアの署名と検証を確実に行うことができます
セキュアブートとメジャードブート: VM が期待通りの正常なカーネルで起動していることを確認するのに役立ちます
Virtual Trusted Platform Module（vTPM）: ルートオブトラストを確立し、メジャードブートの基盤となり、vTPM で保護されたシークレットの引き出しを防止します
整合性モニタリング: Stackdriver と統合された改ざん証明ロギング機能により、既知の整合性のある状態に加えられた変更を迅速に特定、修正できます

Google のアプローチにより、お客さまは 1 回のクリックだけで Shielded VM をデプロイできるため、実装は簡単です。

6. 使用中もデータを暗号化する Confidential Computing

Google Cloud は、Confidential Computing Consortium の創設メンバーです。顧客管理の暗号鍵（CMEK）と顧客指定の暗号鍵（CSEK）を使用した転送中および保存中のデータの暗号化に加え、Confidential VM で使用中のデータも暗号化することで、エンドツーエンドの暗号化に「第三の柱」が加わります。Confidential Computing は、プロセッサベースのテクノロジーを使用しています。これにより、データはパブリッククラウドで処理されている間も使用中に暗号化できます。Confidential VMs を使用すると、チェックボックスを 1 つオンにするだけで、Google Compute Engine VM 上で使用中のメモリを暗号化できます。

すべての Confidential VMs は前述の Shielded VM の機能を内部でサポートしています。Confidential VM が CPU の機能に依存するメモリ暗号化の側面に対処する一方で、Shielded VM は VM の整合性に対処していると考えることができます。Confidential VMs と AMD Secure Encrypted Virtualization（SEV）によって実現する機密実行環境によって、Google Cloud はお客様の機密コードとその他のデータがメモリで処理されている最中も暗号化された状態に保ちます。Google には暗号鍵へのアクセス権はありません。さらに、Confidential VMs は Google インフラストラクチャに依存することのリスク、または Google 内部者がお客様のデータへアクセスすることのリスクに対する懸念を軽減できます。

Google Cloud のパートナーによる Confidential Computing についてのご意見は、こちらをご覧ください。

7. 高度なネットワーキングにより、フルスタックのネットワーキングとセキュリティサービスを高速で安定したスケーラブルなパフォーマンスで提供

Google Cloud のネットワークにより、低レイテンシの実現、運用コストの削減、ビジネスの継続性の確保が可能になります。また、ビジネスのニーズに合わせてどのリージョンでもシームレスにスケールアップとスケールダウンができます。Google の世界規模のネットワークは、高度なソフトウェア定義ネットワーキングや、エッジキャッシングサービスによるセキュリティを使用し、高速で安定したスケーラブルなパフォーマンスを実現しています。28 のリージョン、85 のゾーン、146 の接続拠点（PoP）が世界中の 16 本の海底ファイバーケーブルで結ばれた Google Cloud のネットワークは、企業がどこからでもワークロードを実行できるように、レイヤ 1 からレイヤ 7 までのフルスタックのサービスを提供しています。企業は、最高水準のネットワーキングとセキュリティサービスにより、シンプルで可視性と制御が確保されたハイブリッド環境およびマルチクラウド環境で VM、コンテナ、ベアメタルリソースを接続できます。

Google Cloud のネットワークは、世界最大級の 2.54 Tbps の DDoS 攻撃からお客様を守ってきました。Google のマルチレイヤセキュリティアーキテクチャと Cloud Armor のようなプロダクトにより、お客様のビジネスの運営に中断は生じませんでした。さらに、最近の Cloud Armor と reCAPTCHA Enterprise のインテグレーションで、ボリューム型攻撃を防ぐ最高水準の bot および不正行為の管理が追加されました。Cloud Armor は Cloud Load Balancer および Cloud CDN と合わせてデプロイされます。これにより、Google Cloud の受信トラフィックに対するネットワークエッジの安全性が向上し、お客様はセキュリティ、パフォーマンス、信頼性がすべて揃った状態で利用を開始できます。さらに、セキュリティ業界のリーダーである Palo Alto Networks と共同で開発した Cloud IDS を、Google Cloud 上でネイティブに動作するようにプレビュー版で提供しています。

Google の高度なネットワーク機能は、GKE や Anthos ネットワークにもおよびます。GKE Gateway コントローラを使用すると、管理用の一元化されたポリシーと制御を維持しながら、GKE クラスタ、またはマルチテナンシーを使用した GKE クラスタのフリートに対して、内部および外部の HTTPS ロードバランシングを管理できます。他の Kubernetes サービスとは異なり、Kubernetes ネットワークポリシーや GKE のロギングなどの強力な機能を追加できる eBPF データプレーンが提供されます。eBPF は、カーネル空間でモジュールのロードとアンロードを行う独自のアーキテクチャで、カーネルエンジニアの間では「特殊能力」として知られていますが、今回、この機能が Google Cloud ネットワーキングに組み込まれました。

オブザーバビリティとモニタリングのために、お客様には Google Cloud の包括的なネットワークモニタリング、検証、最適化プラットフォームである Network Intelligence Center がデプロイされます。Google は Network Intelligence Center の 4 つの重要なモジュールと、さらに将来に追加される予定のいくつかのモジュールを使用して、AI と ML の推奨と改善によってネットワーク障害を予測、修復する、事前対応型のネットワーク運用というビジョンの実現に向けて取り組んでいます。Network Intelligence Center は、クラウド内のネットワークの他にはない可視性を実現し、先回りして検証します。一元化されたモニタリングにより、トラブルシューティングにかかる時間と労力を削減し、ネットワークセキュリティと全体的なユーザーエクスペリエンスが改善します。

8. 高可用性のリージョン Persistent Disk

リージョン Persistent Disk は、リージョン内の 2 つのゾーン間でデータの同期レプリケーションを行うストレージオプションです。費用効率と耐久性に優れたストレージと、同じリージョン内の 2 つのゾーン間のデータレプリケーションが提供されるため、重要なアプリケーションの高可用性を確保する必要がある場合にはうってつけです。

また、リージョン Persistent Disk は、Google Cloud Console 内で簡単にセットアップできます。Compute Engine で堅牢なシステムや高可用性サービスを設計する場合は、スナップショットを使用したデータバックアップなど、他のベストプラクティスを取り入れてリージョン Persistent Disk を使用することで、可用性と障害時の復元力に優れたインフラストラクチャを構築できます。また、リージョン Persistent Disk は、リージョンマネージドインスタンスグループと連携するように設計されています。万一ゾーンが停止した場合、リージョン Persistent Disk はワークロードを別のゾーンにフェイルオーバーすることで I/O を継続します。リージョン Persistent Disk は、RTO をゼロまたはほぼゼロに抑えるという要件や、その他重要なアプリケーションに必要な厳しい SLA を満たせるよう、ホストまたは VM の障害やゾーン停止などのイベント中にアプリケーションの可用性とデータ保護を最大限に高めます。

9. リージョンレプリケーション管理が驚くほど簡単な Cloud Storage のデュアルリージョンとマルチリージョン向け単一名前空間

Persistent Disk がゾーン間のデータをレプリケートすることで利用可能なデータ量を増やすように、Cloud Storage を使用するとオブジェクトストレージで同様のメリットが得られます。1 つのリージョン内の Cloud Storage は、定義上クロスゾーンであるため、ゾーン停止中にアプリケーションが終了するリスクが低減します。それに加え、Cloud Storage にはリージョンの停止から保護できるクロスリージョンオプションもあり、分散しているユーザーにデータを近づけることができます。これは、バケットのデュアルリージョンまたはマルチリージョン設定の形で行われます。クロスリージョンレプリケーションの実装方法としては業界で他にないほど簡単で、ボタン 1 つ、または一度の API 呼び出しだけで有効化できます。実装が簡単なだけではなく、リージョンをまたいで単一のバケット名を使用できるというメリットもあります。

これは、業界でも独特な機能です。現在、競合他社のサービスではリージョンごとに 2 つの異なるバケットを設定、管理する必要があり、Cloud Storage が提供するリージョン間の強整合性プロパティも提供していません。そのようなやり方では、運用やアプリ開発に負担がかかります。Google の単一名前空間アプローチは、アプリケーション開発を劇的に簡素化し（リージョンが単一でも、デュアルまたはマルチでも、一切の変更なしにアプリを実行できる）、簡単にアプリケーションの再起動や DR のためのテストを実施できるようになります。

10. 予測オートスケーリング

予測自動スケーリングを使用して、初期化に時間がかかるアプリケーションや、ワークロードが日ごと、または週ごとに予測可能に変化するアプリケーションのレスポンス時間を改善できます。予測自動スケーリングを有効にすると、Compute Engine はマネージドインスタンスグループの履歴に基づいて将来の負荷を予測し、負荷が到来するときに新しいインスタンスを提供できるように、予測された負荷の前に MIG をスケールアウトします。予測自動スケーリングなしでは、オートスケーラーは、リアルタイムで観測された負荷の変化に基づき、反応的にグループをスケールすることしかできません。

予測自動スケーリングを有効にすると、オートスケーラーは、過去のデータだけでなくリアルタイムデータに基づいて、現在の負荷と予測した負荷の両方に対応します。予測は数分ごとに更新され（他社クラウドのスピードを上回る）、日ごと、週ごとの時期的変動も考慮されるため、負荷パターンの予測精度が高まります。

詳細については、予測自動スケーリングの仕組みと予測自動スケーリングがワークロードに適しているかどうかの確認をご覧ください。

これらは、Google Cloud のインフラストラクチャを特徴づける、お客様中心のイノベーションのほんの一例です。アプリケーションを移行して、プラットフォームを活用してください。

まずは移行のオプションについて確認するか、セールスチームにご連絡のうえ、何千社ものお客様にご利用いただいているこのサービスにご登録ください。

謝辞

この記事に協力してくれた Dheeraj Konidena（Google）に感謝します。

- Google グローバルプロダクトリーダー Sanjay Jacob

- Google プリンシパルアーキテクト Gagandeep Singh

投稿先