Google Distributed Cloud エアギャップ 1.13.3 リリースノート

2024 年 8 月 30 日


Google Distributed Cloud(GDC)エアギャップ 1.13.3 が利用可能になりました。
Distributed Cloud の機能については、プロダクトの概要をご覧ください。

クラスタ管理:

  • マルチインスタンス GPU(MIG)プロファイル(均一モードとミックスモード)の幅広いセットを導入しました。さまざまな GPU スライス方式を使用して GPU VM(A3 VM)に Google Kubernetes Engine クラスタを作成し、人工知能(AI)ワークロードをホストするサービスの GPU リソースのニーズに動的に対応できます。

ハードウェア:

  • 最新の NVIDIA Hopper H100 GPU(2x2 NVL)と最新の第 5 世代 Intel プロセッサを組み合わせた新しい DL380a サーバーが利用可能です。

仮想マシン:

  • GPU 最適化 A3 VM タイプが新しく利用可能になりました。A3 VM タイプには 4 つの NVIDIA H100 80 GB GPU が接続されており、最大 1, 000 億個のパラメータを必要とする大規模言語モデルを必要とする AI ワークロードを実行できます。
  • 小規模な A3 VM シェイプが導入され、VM あたり 1 つの H100 80 GB GPU と 2 つの H100 80 GB GPU がアタッチされます。この機能はプレビュー中です。

Vertex AI:


Canonical Ubuntu OS イメージのバージョンを 20240811 に更新し、最新のセキュリティ パッチと重要なアップデートを適用しました。 バグとセキュリティの脆弱性の修正を利用するには、各リリースで全ノードをアップグレードする必要があります。 以下のセキュリティの脆弱性が修正されました。

最新のセキュリティ パッチと重要なアップデートを適用するため、Rocky OS イメージのバージョンを 20240731 に更新しました。


請求:

  • 検証 Webhook エラーのため、ユーザーが BillingAccountBinding を作成できない。

ブロック ストレージ:

  • ボリューム マウント エラーのため、Grafana Pod が Init 状態のままになる。
  • Trident のマルチアタッチ エラーがあります。

Database Service:

  • アップグレード時に dbs-fleet サブコンポーネントで調整エラーが発生します。
  • アップグレード後に DBCluster の作成が失敗します。

ID とアクセスの管理:

  • opa-system Namespace の gatekeeper-audit Pod が頻繁に再起動します。

モニタリング:

  • Cortex ストア ゲートウェイ Pod は、ストレージ バックエンドとの同期中に起動時にクラッシュループすることがあります。Pod がメモリ上限を超え、Kubernetes によって終了されます。
  • Kube コントロール プレーンの指標プロキシ Pod が、イメージ pull バックオフ エラーでクラッシュループする可能性があります。
  • WAL(write-ahead log)の増加により、Prometheus が大量のメモリを使用します。この問題により、システム コントロール プレーン VM ノードは NodeHasInsufficientMemory イベントと EvictionThresholdMet イベントを報告します。

ネットワーキング:

  • スイッチ イメージがイメージの抽出または pull に失敗しました。

オブジェクト ストレージ:

  • 一部のオブジェクト ストレージのアップグレード警告は無視できます。

オペレーティング システム:

  • Pod が単一のノードで ContainerCreating 状態のままになっている。

物理サーバー:

  • DL380a サーバーのプロビジョニングに失敗します。

アップグレード:

  • アップグレード中に Helm の障害が発生すると、一連のロールバックが発生します。
  • HW2.0 と Ubuntu からアップグレードすると、ノードのアップグレードで RockyLinux が誤って表示されます。
  • dhcp-tftp-core-server Pod がドレインされません。
  • OrganizationUpgrade がノードのアップグレード ステージで停止しています。
  • 外部クラスタ VIP への接続が断続的に失敗します。
  • カーネルがコンテナの作成に失敗します。
  • アップグレード中に Incorrect version of Trident エラーが表示されます。
  • ユーザー クラスタのプロビジョニング中に、一部の Pod のスケジュール設定が失敗します。
  • テナント組織のアップグレードがプリフライト チェックの段階で ErrImagePull で失敗します。
  • ルート組織のアップグレードが、署名ジョブの失敗で停止しています。
  • アップグレード中に、サービス アカウントがないため、ルート組織のタスクが失敗します。
  • shared-service-cluster upgrade でアップグレードが失敗する
  • ユーザー クラスタのアップグレード中にノードが失敗します。
  • プリフライト チェックでルート組織のアップグレードが失敗します。
  • 初期ルート organizationupgrade で永続的なタイムアウトが発生します。
  • obj-syslog-server サブコンポーネントがルート組織での調整に失敗します。

仮想マシン:

  • NVIDIA デバイス プラグイン DaemonSet が、GPU を搭載したクラスタノードで driver rpc error メッセージで失敗します。この問題により、仮想マシンと Pod で GPU を使用できなくなります。
  • システム クラスタ VM の準備ができていません。
  • データ ボリュームから、スクラッチ スペースが見つからないというレポートが返されます。
  • obj-syslog-server サブコンポーネントがルート組織での調整に失敗します。

Vertex AI:

  • クライアント ライブラリの問題により、Speech-to-Text の streaming_recognize 事前トレーニング済み API 関数が失敗します。
  • batchTranslateDocument API ではジョブ ステータスのポーリングはサポートされていません。
  • batchTranslateDocument リクエストにより、パフォーマンスの問題が発生する可能性があります。
  • 事前トレーニング済み API を初めて有効にすると、数分後に GDC コンソールに一貫性のないステータスが表示されることがあります。
  • 250 文字を超える変換リクエストを行うと、translation-prediction-server Pod がクラッシュすることがあります。
  • 共有サービス クラスタの GPUAllocation が正しく構成されていません。
  • バージョン 1.9.x から 1.13.3 にアップグレードすると、Vertex AI サブコンポーネントの Operable Component Lifecycle Management(OCLCM)コントローラでエラーが表示されることがあります。
  • システム頻度の上限を超えると、翻訳リクエストで RESOURCE_EXHAUSTED エラーコードが生成されることがあります。
  • クラスタで enableRAG 操作可能パラメータが true に設定されていない場合、batchTranslateDocument リクエストはエラー 503 "Batch Document translation is not implemented を返します。

モニタリング:

  • Prober ConfigMap がリセットされ、プローブジョブが含まれなくなる問題を修正しました。

ネットワーキング:

  • ClusterCIDRConfig が作成されていても、PodCIDR がノードに割り当てられない問題を修正しました。

オペレーティング システム:

  • ベアメタル ノードまたは VM ノードの bm-system-machine-preflight-check Ansible ジョブが Either ip_tables or nf_tables kernel module must be loaded で失敗する問題を修正しました。

物理サーバー:

  • HPE サーバーでの POST の問題によりサーバー ブートストラップが失敗する問題を修正しました。

アップグレード:

  • iac-zoneselection-global サブコンポーネントでアップグレードが失敗する問題を修正しました。

Vertex AI:

  • ユーザー クラスタの作成時に MonitoringTargetNot Ready ステータスを表示し、事前トレーニング済み API がユーザー インターフェースで Enabling 状態を継続的に表示する問題を修正しました。

アドオン マネージャー:

アップグレード:

  • アップグレードのドキュメントには、アップグレード プロセスのさまざまなステージの所要時間の見積もりが記載されています。