このページは Cloud Translation API によって翻訳されました。

Google Distributed Cloud エアギャップ 1.13.3 リリースノート

2024 年 8 月 30 日

Google Distributed Cloud（GDC）エアギャップ 1.13.3 が利用可能になりました。
Distributed Cloud の機能については、プロダクトの概要をご覧ください。

クラスタ管理:

マルチインスタンス GPU（MIG）プロファイル（均一モードとミックスモード）の幅広いセットを導入しました。さまざまな GPU スライス方式を使用して GPU VM（A3 VM）に Google Kubernetes Engine クラスタを作成し、人工知能（AI）ワークロードをホストするサービスの GPU リソースのニーズに動的に対応できます。

ハードウェア:

最新の NVIDIA Hopper H100 GPU（2x2 NVL）と最新の第 5 世代 Intel プロセッサを組み合わせた新しい DL380a サーバーが利用可能です。

仮想マシン:

GPU 最適化 A3 VM タイプが新しく利用可能になりました。A3 VM タイプには 4 つの NVIDIA H100 80 GB GPU が接続されており、最大 1, 000 億個のパラメータを必要とする大規模言語モデルを必要とする AI ワークロードを実行できます。
小規模な A3 VM シェイプが導入され、VM あたり 1 つの H100 80 GB GPU と 2 つの H100 80 GB GPU がアタッチされます。この機能はプレビュー中です。

Vertex AI:

ドキュメント翻訳の新しいファイル形式（DOC、PPT、TXT、XLS）のサポートが含まれています。
一括ドキュメント翻訳の API とサポートを追加しました。
オンライン予測のリソースプールで、MIG GPU のアクセラレータタイプの新しい形式をサポートしました。
インライン翻訳とバケットに保存されたドキュメントの言語自動検出機能をサポートしました。
API プラットフォームは本番環境段階です。

Canonical Ubuntu OS イメージのバージョンを 20240811 に更新し、最新のセキュリティパッチと重要なアップデートを適用しました。バグとセキュリティの脆弱性の修正を利用するには、各リリースですべてのノードをアップグレードする必要があります。以下のセキュリティの脆弱性が修正されました。

CVE-2021-20230
CVE-2022-48655
CVE-2022-4968
CVE-2022-48674
CVE-2023-6270
CVE-2023-6597
CVE-2023-52752
CVE-2024-0397
CVE-2024-0450
CVE-2024-0760
CVE-2024-1724
CVE-2024-1737
CVE-2024-1975
CVE-2024-2201
CVE-2024-4032
CVE-2024-4076
CVE-2024-5569
CVE-2024-6655
CVE-2024-7264
CVE-2024-23307
CVE-2024-24861
CVE-2024-26583
CVE-2024-26584
CVE-2024-26585
CVE-2024-26586
CVE-2024-26642
CVE-2024-26643
CVE-2024-26828
CVE-2024-26886
CVE-2024-26889
CVE-2024-26907
CVE-2024-26922
CVE-2024-26923
CVE-2024-26925
CVE-2024-26926
CVE-2024-27019
CVE-2024-29068
CVE-2024-29069
CVE-2024-35235
CVE-2024-36016
CVE-2024-37370
CVE-2024-37371
CVE-2024-38428

最新のセキュリティパッチと重要なアップデートを適用するため、Rocky OS イメージのバージョンを 20240731 に更新しました。

請求:

検証 Webhook エラーのため、ユーザーが BillingAccountBinding を作成できない。
詳細については、既知の問題をご覧ください。

ブロックストレージ:

ボリュームマウントエラーのため、Grafana Pod が Init 状態のままになる。
詳細については、既知の問題をご覧ください。
Trident のマルチアタッチエラーがあります。
詳細については、既知の問題をご覧ください。

Database Service:

アップグレード時に dbs-fleet サブコンポーネントで調整エラーが発生します。
詳細については、既知の問題をご覧ください。
アップグレード後に DBCluster の作成が失敗します。
詳細については、既知の問題をご覧ください。

ID とアクセスの管理:

opa-system Namespace の gatekeeper-audit Pod が頻繁に再起動します。
詳細については、既知の問題をご覧ください。

モニタリング:

Cortex ストアゲートウェイ Pod は、ストレージバックエンドとの同期中に起動時にクラッシュループすることがあります。Pod がメモリ上限を超え、Kubernetes によって終了されます。
詳細については、既知の問題をご覧ください。
Kube コントロールプレーンの指標プロキシ Pod が、イメージ pull バックオフエラーでクラッシュループする可能性があります。
詳細については、既知の問題をご覧ください。
WAL（write-ahead log）の増加により、Prometheus が大量のメモリを使用します。この問題により、システムコントロールプレーン VM ノードは NodeHasInsufficientMemory イベントと EvictionThresholdMet イベントを報告します。
詳細については、既知の問題をご覧ください。

ネットワーキング:

スイッチイメージがイメージの抽出または pull に失敗しました。
詳細については、既知の問題をご覧ください。

オブジェクトストレージ:

一部のオブジェクトストレージのアップグレード警告は無視できます。
詳細については、既知の問題をご覧ください。

オペレーティングシステム:

Pod が単一のノードで ContainerCreating 状態のままになっている。
詳細については、既知の問題をご覧ください。

物理サーバー:

DL380a サーバーのプロビジョニングに失敗します。
詳細については、既知の問題をご覧ください。

アップグレード:

アップグレード中に Helm の障害が発生すると、一連のロールバックが発生します。
詳細については、既知の問題をご覧ください。
HW2.0 と Ubuntu からアップグレードすると、ノードのアップグレードで RockyLinux が誤って表示されます。
詳細については、既知の問題をご覧ください。
dhcp-tftp-core-server Pod がドレインされません。
詳細については、既知の問題をご覧ください。
OrganizationUpgrade がノードのアップグレードステージで停止しています。
詳細については、既知の問題をご覧ください。
外部クラスタ VIP への接続が断続的に失敗します。
詳細については、既知の問題をご覧ください。
カーネルがコンテナの作成に失敗します。
詳細については、既知の問題をご覧ください。
アップグレード中に Incorrect version of Trident エラーが表示されます。
詳細については、既知の問題をご覧ください。
ユーザークラスタのプロビジョニング中に、一部の Pod のスケジュール設定が失敗します。
詳細については、既知の問題をご覧ください。
テナント組織のアップグレードがプリフライトチェックの段階で ErrImagePull で失敗します。
詳細については、既知の問題をご覧ください。
ルート組織のアップグレードが、署名ジョブの失敗で停止しています。
詳細については、既知の問題をご覧ください。
アップグレード中に、サービスアカウントがないため、ルート組織のタスクが失敗します。
詳細については、既知の問題をご覧ください。
shared-service-cluster upgrade でアップグレードが失敗する
詳細については、既知の問題をご覧ください。
ユーザークラスタのアップグレード中にノードが失敗します。
詳細については、既知の問題をご覧ください。
プリフライトチェックでルート組織のアップグレードが失敗します。
詳細については、既知の問題をご覧ください。
初期ルート organizationupgrade で永続的なタイムアウトが発生します。
詳細については、既知の問題をご覧ください。
obj-syslog-server サブコンポーネントがルート組織での調整に失敗します。
詳細については、既知の問題をご覧ください。

仮想マシン:

NVIDIA デバイスプラグイン DaemonSet が、GPU を搭載したクラスタノードで driver rpc error メッセージで失敗します。この問題により、仮想マシンと Pod で GPU を使用できなくなります。
詳細については、既知の問題をご覧ください。
システムクラスタ VM の準備ができていません。
詳細については、既知の問題をご覧ください。
データボリュームから、スクラッチスペースが見つからないというレポートが返されます。
詳細については、既知の問題をご覧ください。
obj-syslog-server サブコンポーネントがルート組織での調整に失敗します。
詳細については、既知の問題をご覧ください。

Vertex AI:

クライアントライブラリの問題により、Speech-to-Text の streaming_recognize 事前トレーニング済み API 関数が失敗します。
詳細については、既知の問題をご覧ください。
batchTranslateDocument API ではジョブステータスのポーリングはサポートされていません。
詳細については、既知の問題をご覧ください。
batchTranslateDocument リクエストにより、パフォーマンスの問題が発生する可能性があります。
詳細については、既知の問題をご覧ください。
事前トレーニング済み API を初めて有効にすると、数分後に GDC コンソールに一貫性のないステータスが表示されることがあります。
詳細については、既知の問題をご覧ください。
250 文字を超える変換リクエストを行うと、translation-prediction-server Pod がクラッシュすることがあります。
詳細については、既知の問題をご覧ください。
共有サービスクラスタの GPUAllocation が正しく構成されていません。
詳細については、既知の問題をご覧ください。
バージョン 1.9.x から 1.13.3 にアップグレードすると、Vertex AI サブコンポーネントの Operable Component Lifecycle Management（OCLCM）コントローラでエラーが表示されることがあります。
詳細については、既知の問題をご覧ください。
システム頻度の上限を超えると、翻訳リクエストで RESOURCE_EXHAUSTED エラーコードが生成されることがあります。
詳細については、既知の問題をご覧ください。
クラスタで enableRAG 操作可能パラメータが true に設定されていない場合、batchTranslateDocument リクエストはエラー 503 "Batch Document translation is not implemented を返します。
詳細については、既知の問題をご覧ください。

モニタリング:

Prober ConfigMap がリセットされ、プローブジョブが含まれなくなる問題を修正しました。

ネットワーキング:

ClusterCIDRConfig が作成されていても、PodCIDR がノードに割り当てられない問題を修正しました。
詳細については、既知の問題をご覧ください。

オペレーティングシステム:

ベアメタルノードまたは VM ノードの bm-system-machine-preflight-check Ansible ジョブが Either ip_tables or nf_tables kernel module must be loaded で失敗する問題を修正しました。
詳細については、既知の問題をご覧ください。

物理サーバー:

HPE サーバーでの POST の問題によりサーバーブートストラップが失敗する問題を修正しました。
詳細については、既知の問題をご覧ください。

アップグレード:

iac-zoneselection-global サブコンポーネントでアップグレードが失敗する問題を修正しました。
詳細については、既知の問題をご覧ください。

Vertex AI:

ユーザークラスタの作成時に MonitoringTarget が Not Ready ステータスを表示し、事前トレーニング済み API がユーザーインターフェースで Enabling 状態を継続的に表示する問題を修正しました。

アドオンマネージャー:

最新のセキュリティパッチと重要なアップデートを適用するため、ベアメタル用 Google Distributed Cloud のバージョンが 1.29.300-gke.185 に更新されます。

詳細については、Google Distributed Cloud on Bare Metal 1.29.300-gke.185 リリースノートをご覧ください。

アップグレード:

アップグレードのドキュメントには、アップグレードプロセスのさまざまなステージの推定所要時間が記載されています。

Google Distributed Cloud エアギャップ 1.13.3 リリースノート コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

2024 年 8 月 30 日

Google Distributed Cloud エアギャップ 1.13.3 リリースノート