2024 年 8 月 30 日
Google Distributed Cloud(GDC)エアギャップ 1.13.3 が利用可能になりました。
Distributed Cloud の機能については、プロダクトの概要をご覧ください。
Distributed Cloud の機能については、プロダクトの概要をご覧ください。
クラスタ管理:
- マルチインスタンス GPU(MIG)プロファイル(均一モードとミックスモード)の幅広いセットを導入しました。さまざまな GPU スライス方式を使用して GPU VM(A3 VM)に Google Kubernetes Engine クラスタを作成し、人工知能(AI)ワークロードをホストするサービスの GPU リソースのニーズに動的に対応できます。
ハードウェア:
- 最新の NVIDIA Hopper H100 GPU(2x2 NVL)と最新の第 5 世代 Intel プロセッサを組み合わせた新しい DL380a サーバーが利用可能です。
仮想マシン:
- GPU 最適化 A3 VM タイプが新しく利用可能になりました。A3 VM タイプには 4 つの NVIDIA H100 80 GB GPU が接続されており、最大 1, 000 億個のパラメータを必要とする大規模言語モデルを必要とする AI ワークロードを実行できます。
- 小規模な A3 VM シェイプが導入され、VM あたり 1 つの H100 80 GB GPU と 2 つの H100 80 GB GPU がアタッチされます。この機能はプレビュー中です。
Vertex AI:
- ドキュメント翻訳の新しいファイル形式(DOC、PPT、TXT、XLS)のサポートが含まれています。
- 一括ドキュメント翻訳の API とサポートを追加しました。
- オンライン予測のリソース プールで、MIG GPU のアクセラレータ タイプの新しい形式をサポートしました。
- インライン翻訳とバケットに保存されたドキュメントの言語自動検出機能をサポートしました。
- API プラットフォームは本番環境段階です。
Canonical Ubuntu OS イメージのバージョンを 20240811 に更新し、最新のセキュリティ パッチと重要なアップデートを適用しました。
バグとセキュリティの脆弱性の修正を利用するには、各リリースで全ノードをアップグレードする必要があります。
以下のセキュリティの脆弱性が修正されました。
- CVE-2021-20230
- CVE-2022-48655
- CVE-2022-4968
- CVE-2022-48674
- CVE-2023-6270
- CVE-2023-6597
- CVE-2023-52752
- CVE-2024-0397
- CVE-2024-0450
- CVE-2024-0760
- CVE-2024-1724
- CVE-2024-1737
- CVE-2024-1975
- CVE-2024-2201
- CVE-2024-4032
- CVE-2024-4076
- CVE-2024-5569
- CVE-2024-6655
- CVE-2024-7264
- CVE-2024-23307
- CVE-2024-24861
- CVE-2024-26583
- CVE-2024-26584
- CVE-2024-26585
- CVE-2024-26586
- CVE-2024-26642
- CVE-2024-26643
- CVE-2024-26828
- CVE-2024-26886
- CVE-2024-26889
- CVE-2024-26907
- CVE-2024-26922
- CVE-2024-26923
- CVE-2024-26925
- CVE-2024-26926
- CVE-2024-27019
- CVE-2024-29068
- CVE-2024-29069
- CVE-2024-35235
- CVE-2024-36016
- CVE-2024-37370
- CVE-2024-37371
- CVE-2024-38428
最新のセキュリティ パッチと重要なアップデートを適用するため、Rocky OS イメージのバージョンを 20240731 に更新しました。
請求:
-
検証 Webhook エラーのため、ユーザーが
BillingAccountBinding
を作成できない。
ブロック ストレージ:
-
ボリューム マウント エラーのため、Grafana Pod が
Init
状態のままになる。 - Trident のマルチアタッチ エラーがあります。
Database Service:
-
アップグレード時に
dbs-fleet
サブコンポーネントで調整エラーが発生します。 -
アップグレード後に
DBCluster
の作成が失敗します。
ID とアクセスの管理:
-
opa-system
Namespace のgatekeeper-audit
Pod が頻繁に再起動します。
モニタリング:
- Cortex ストア ゲートウェイ Pod は、ストレージ バックエンドとの同期中に起動時にクラッシュループすることがあります。Pod がメモリ上限を超え、Kubernetes によって終了されます。
- Kube コントロール プレーンの指標プロキシ Pod が、イメージ pull バックオフ エラーでクラッシュループする可能性があります。
-
WAL(write-ahead log)の増加により、Prometheus が大量のメモリを使用します。この問題により、システム コントロール プレーン VM ノードは
NodeHasInsufficientMemory
イベントとEvictionThresholdMet
イベントを報告します。
ネットワーキング:
- スイッチ イメージがイメージの抽出または pull に失敗しました。
オブジェクト ストレージ:
- 一部のオブジェクト ストレージのアップグレード警告は無視できます。
オペレーティング システム:
-
Pod が単一のノードで
ContainerCreating
状態のままになっている。
物理サーバー:
- DL380a サーバーのプロビジョニングに失敗します。
アップグレード:
- アップグレード中に Helm の障害が発生すると、一連のロールバックが発生します。
- HW2.0 と Ubuntu からアップグレードすると、ノードのアップグレードで RockyLinux が誤って表示されます。
-
dhcp-tftp-core-server
Pod がドレインされません。 -
OrganizationUpgrade
がノードのアップグレード ステージで停止しています。 - 外部クラスタ VIP への接続が断続的に失敗します。
- カーネルがコンテナの作成に失敗します。
-
アップグレード中に
Incorrect version of Trident
エラーが表示されます。 - ユーザー クラスタのプロビジョニング中に、一部の Pod のスケジュール設定が失敗します。
-
テナント組織のアップグレードがプリフライト チェックの段階で
ErrImagePull
で失敗します。 - ルート組織のアップグレードが、署名ジョブの失敗で停止しています。
- アップグレード中に、サービス アカウントがないため、ルート組織のタスクが失敗します。
-
shared-service-cluster upgrade
でアップグレードが失敗する - ユーザー クラスタのアップグレード中にノードが失敗します。
- プリフライト チェックでルート組織のアップグレードが失敗します。
-
初期ルート
organizationupgrade
で永続的なタイムアウトが発生します。 -
obj-syslog-server
サブコンポーネントがルート組織での調整に失敗します。
仮想マシン:
-
NVIDIA デバイス プラグイン
DaemonSet
が、GPU を搭載したクラスタノードでdriver rpc error
メッセージで失敗します。この問題により、仮想マシンと Pod で GPU を使用できなくなります。 - システム クラスタ VM の準備ができていません。
- データ ボリュームから、スクラッチ スペースが見つからないというレポートが返されます。
-
obj-syslog-server
サブコンポーネントがルート組織での調整に失敗します。
Vertex AI:
-
クライアント ライブラリの問題により、Speech-to-Text の
streaming_recognize
事前トレーニング済み API 関数が失敗します。 -
batchTranslateDocument
API ではジョブ ステータスのポーリングはサポートされていません。 -
batchTranslateDocument
リクエストにより、パフォーマンスの問題が発生する可能性があります。 - 事前トレーニング済み API を初めて有効にすると、数分後に GDC コンソールに一貫性のないステータスが表示されることがあります。
-
250 文字を超える変換リクエストを行うと、
translation-prediction-server
Pod がクラッシュすることがあります。 -
共有サービス クラスタの
GPUAllocation
が正しく構成されていません。 - バージョン 1.9.x から 1.13.3 にアップグレードすると、Vertex AI サブコンポーネントの Operable Component Lifecycle Management(OCLCM)コントローラでエラーが表示されることがあります。
-
システム頻度の上限を超えると、翻訳リクエストで
RESOURCE_EXHAUSTED
エラーコードが生成されることがあります。 -
クラスタで
enableRAG
操作可能パラメータがtrue
に設定されていない場合、batchTranslateDocument
リクエストはエラー503 "Batch Document translation is not implemented
を返します。
モニタリング:
- Prober ConfigMap がリセットされ、プローブジョブが含まれなくなる問題を修正しました。
ネットワーキング:
-
ClusterCIDRConfig
が作成されていても、PodCIDR
がノードに割り当てられない問題を修正しました。
オペレーティング システム:
- ベアメタル ノードまたは VM ノードの
bm-system-machine-preflight-check
Ansible ジョブがEither ip_tables or nf_tables kernel module must be loaded
で失敗する問題を修正しました。
物理サーバー:
- HPE サーバーでの POST の問題によりサーバー ブートストラップが失敗する問題を修正しました。
アップグレード:
iac-zoneselection-global
サブコンポーネントでアップグレードが失敗する問題を修正しました。
Vertex AI:
-
ユーザー クラスタの作成時に
MonitoringTarget
がNot Ready
ステータスを表示し、事前トレーニング済み API がユーザー インターフェースでEnabling
状態を継続的に表示する問題を修正しました。
アドオン マネージャー:
最新のセキュリティ パッチと重要なアップデートを適用するため、ベアメタル用 Google Distributed Cloud のバージョンが 1.29.300-gke.185 に更新されます。
詳細については、Google Distributed Cloud on Bare Metal 1.29.300-gke.185 リリースノートをご覧ください。
アップグレード:
- アップグレードのドキュメントには、アップグレード プロセスのさまざまなステージの所要時間の見積もりが記載されています。