本頁面由 Cloud Translation API 翻譯而成。

worker 集區的 GPU 支援

本頁說明如何為 Cloud Run 工作站集區設定 GPU。Google 提供 NVIDIA L4 GPU，內含 24 GB 的 GPU 記憶體 (VRAM)，與執行個體記憶體不同。

Cloud Run 上的 GPU 為全代管服務，不需要額外的驅動程式或程式庫。GPU 功能提供隨選可用性，無須預訂，與 Cloud Run 中的隨選 CPU 和隨選記憶體運作方式類似。

附加 L4 GPU 並預先安裝驅動程式的 Cloud Run 執行個體，大約會在 5 秒內啟動，屆時容器中執行的程序就能開始使用 GPU。

每個 Cloud Run 執行個體可設定一個 GPU。如果您使用 Sidecar 容器，請注意 GPU 只能附加至一個容器。

支援的地區

asia-southeast1 (新加坡)
asia-south1 (孟買) 。這個區域僅開放給受邀對象。如對這個區域有興趣，請與 Google 帳戶團隊聯絡。
europe-west1 (比利時) 二氧化碳排放量低
europe-west4 (荷蘭) 二氧化碳排放量低
us-central1 (愛荷華州) 二氧化碳排放量低
us-east4 (北維吉尼亞州)

支援的 GPU 類型

每個 Cloud Run 執行個體最多可使用一個 L4 GPU。L4 GPU 已預先安裝下列驅動程式：

目前的 NVIDIA 驅動程式版本：535.216.03 (CUDA 12.2)

價格影響

如需 GPU 定價詳細資料，請參閱 Cloud Run 定價。請注意下列規定和考量事項：

GPU 可用區備援機制和非可用區備援機制的費用不同。如需 GPU 定價詳細資料，請參閱 Cloud Run 定價。
GPU worker 集區無法自動調度資源。即使 GPU 未執行任何程序，只要工作站集區 GPU 執行個體正在執行，您仍須支付 GPU 費用。
工作站集區的 CPU 和記憶體計費方式與服務和作業不同。不過，GPU SKU 的價格與服務和工作相同。
最少須使用 4 個 CPU 和 16 GiB 的記憶體。
系統會針對執行個體生命週期的整個期間收取 GPU 費用。

GPU 可用區備援機制選項

根據預設，Cloud Run 會在單一區域內的多個可用區部署工作站集區。這項架構具有固有的復原能力：如果某個可用區發生中斷，Cloud Run 會自動將流量從受影響的可用區，改為導向同一區域內正常的可用區。

使用 GPU 資源時，請注意 GPU 資源有特定的容量限制。在可用區服務中斷期間，GPU 工作負載的標準容錯移轉機制會仰賴剩餘正常運作的可用區，是否具備足夠的未使用 GPU 容量。由於 GPU 資源有限，這項容量可能無法隨時供應。

如要提高 GPU 加速工作站集區在可用區服務中斷期間的可用性，您可以專為 GPU 設定可用區備援機制：

啟用可用區備援機制 (預設)：Cloud Run 會在多個可用區為工作站集區保留 GPU 運算資源。這大幅提高了工作站集區成功處理從受影響可用區重新導向流量的機率，在可用區發生故障時提供更高的可靠性，但每秒 GPU 的費用較高。
可用區備援機制已關閉：Cloud Run 會盡可能為 GPU 工作負載嘗試容錯移轉。只有在當時有足夠的 GPU 容量時，流量才會轉送至其他可用區。這個選項無法保證容錯移轉情境的預留容量，但每秒 GPU 的費用較低。

服務水準協議

Cloud Run GPU 的 SLA 取決於工作站集區是否使用可用區備援機制或非可用區備援機制選項。詳情請參閱 SLA 頁面。

申請提高配額

首次在某個區域使用 Cloud Run nvidia-l4 GPU 的專案，在建立第一個部署作業時，系統會自動授予 3 個 GPU 配額 (關閉可用區備援)。如需更多 Cloud Run GPU，請為 Cloud Run 工作站集區申請提高配額。請使用下列按鈕中的連結，申請所需配額。

需要配額	配額連結
已關閉可用區備援機制的 GPU (價格較低)	申請不具備可用區備援機制的 GPU 配額
已啟用可用區備援的 GPU (價格較高)	申請可用區備援 GPU 配額

如要進一步瞭解如何要求增加配額，請參閱「如何增加配額」。

事前準備

在 Cloud Run 中使用 GPU 時，請注意下列規定和限制：

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Cloud Run API.
Enable the API

申請所需配額。
如需建構容器映像檔和載入大型模型的建議，請參閱「GPU 最佳做法：使用 GPU 的 Cloud Run 工作站集區」。
請確認 Cloud Run 工作站集區具有下列設定：

將帳單設定變更為以執行個體為依據的計費模式。請注意，設為以執行個體計費的工作站集區仍可縮減至零。
為工作站集區設定至少 4 個 CPU，建議設定 8 個 CPU。
設定至少 16 GiB 的記憶體，建議使用 32 GiB。
判斷並設定 GPU 使用量的最佳並行上限。

必要的角色

如要取得設定及部署 Cloud Run 工作站集區所需的權限，請要求管理員在工作站集區中授予下列 IAM 角色：

Cloud Run 開發人員 (roles/run.developer) - Cloud Run worker 集區
服務帳戶使用者 (roles/iam.serviceAccountUser) - 服務身分

如需與 Cloud Run 相關的 IAM 角色和權限清單，請參閱 Cloud Run IAM 角色和 Cloud Run IAM 權限。如果 Cloud Run 工作人員集區與Google Cloud API (例如 Cloud 用戶端程式庫) 介接，請參閱服務身分設定指南。如要進一步瞭解如何授予角色，請參閱部署權限和管理存取權。

設定含 GPU 的 Cloud Run worker 集區

變更任何設定都會建立新的修訂版本。除非您明確做出更新，變更這項設定，否則後續的修訂版本也會自動取得這個設定。

您可以使用 Google Cloud 控制台、Google Cloud CLI 或 YAML 設定 GPU。

控制台

前往 Google Cloud 控制台的 Cloud Run：

前往 Cloud Run
從選單中選取「工作站集區」，然後按一下「部署容器」，設定新的工作站集區。如要設定現有工作站集區，請按一下該集區，然後按一下「編輯並部署新修訂版本」。
如要設定新的工作站集區，請填寫初始工作站集區設定頁面，然後按一下「容器、磁碟區、網路與安全性」，展開工作站集區設定頁面。
按一下「容器」分頁標籤。
- 請按照「事前準備」中的建議，設定 CPU、記憶體、並行、執行環境和啟動探查。
- 勾選「GPU」核取方塊，然後從「GPU type」(GPU 類型) 選單選取 GPU 類型，並從「Number of GPUs」(GPU 數量) 選單選取 GPU 數量。
- 根據預設，系統會啟用區域備援功能。如要變更目前設定，請選取 GPU 核取方塊，顯示 GPU 備援機制選項。
按一下 [Create] (建立) 或 [Deploy] (部署)。

gcloud

如要建立啟用 GPU 的服務，請使用 gcloud run deploy 指令：

  gcloud beta run worker-pools deploy WORKER_POOL \
    --image IMAGE_URL \
    --gpu 1

更改下列內容：

WORKER_POOL：Cloud Run worker 集區的名稱。
IMAGE_URL：工作站集區所含容器映像檔的參照，例如 us-docker.pkg.dev/cloudrun/container/worker-pool:latest。

如要更新服務的 GPU 設定，請使用 gcloud run services update 指令：

  gcloud beta run worker-pools update WORKER_POOL \
    --image IMAGE_URL \
    --cpu CPU \
    --memory MEMORY \
    --gpu GPU_NUMBER \
    --gpu-type GPU_TYPE \
    --GPU_ZONAL_REDUNDANCY

更改下列內容：

WORKER_POOL：Cloud Run worker 集區的名稱。
IMAGE_URL：工作站集區所含容器映像檔的參照，例如 us-docker.pkg.dev/cloudrun/container/worker-pool:latest。
CPU：CPU 數量。您必須指定至少 4 個 CPU。
MEMORY：記憶體大小。您必須指定至少 16Gi (16 GiB)。
GPU_NUMBER：值 1 (一)。如果未指定這個值，但存在 GPU_TYPE，則預設值為 1。
GPU_TYPE：GPU 類型。如未指定，但存在 GPU_NUMBER，則預設為 nvidia-l4 (nvidia L4 小寫 L，而非數值十四)。
GPU_ZONAL_REDUNDANCY：no-gpu-zonal-redundancy 可關閉區域備援，gpu-zonal-redundancy 則可開啟區域備援。

YAML

如要建立新服務，請略過這個步驟。如要更新現有服務，請下載其 YAML 設定：
```
gcloud run services describe SERVICE --format export > service.yaml
```

更新 nvidia.com/gpu: 屬性和 nodeSelector: run.googleapis.com/accelerator:：

apiVersion: run.googleapis.com/v1
kind: WorkerPool
metadata:
  name: WORKER_POOL
spec:
  template:
    metadata:
      annotations:
        run.googleapis.com/launch-stage: BETA
        run.googleapis.com/gpu-zonal-redundancy-disabled: 'GPU_ZONAL_REDUNDANCY'
    spec:
      containers:
      - image: IMAGE_URL
        resources:
          limits:
            cpu: 'CPU'
            memory: 'MEMORY'
            nvidia.com/gpu: '1'
      nodeSelector:
        run.googleapis.com/accelerator: GPU_TYPE

更改下列內容：

WORKER_POOL：Cloud Run worker 集區的名稱。
IMAGE_URL：工作站集區所含容器映像檔的參照，例如 us-docker.pkg.dev/cloudrun/container/worker-pool:latest。
CPU：CPU 數量。您必須指定至少 4 個 CPU。
MEMORY：記憶體大小。您必須指定至少 16Gi (16 GiB)。
GPU_TYPE：值為 nvidia-l4 (nvidia-L4 小寫 L，而非數值 14)。
GPU_ZONAL_REDUNDANCY：false 可開啟 GPU 可用區備援機制，true 則可關閉。

使用下列指令建立或更新服務：

gcloud run services replace service.yaml

Terraform

如要瞭解如何套用或移除 Terraform 設定，請參閱「基本 Terraform 指令」。

resource "google_cloud_run_v2_worker_pool" "default" {
  provider = google-beta
  name     = "WORKER_POOL"
  location = "REGION"

  template {
    gpu_zonal_redundancy_disabled = "GPU_ZONAL_REDUNDANCY"
    containers {
      image = "IMAGE_URL"
      resources {
        limits = {
          "cpu" = "CPU"
          "memory" = "MEMORY"
          "nvidia.com/gpu" = "1"
        }
      }
    }
    node_selector {
      accelerator = "GPU_TYPE"
    }
  }
}

更改下列內容：

SERVICE：Cloud Run 服務的名稱。
GPU_ZONAL_REDUNDANCY：false 可開啟 GPU 可用區備援機制，true 則可關閉。
IMAGE_URL：工作站集區所含容器映像檔的參照，例如 us-docker.pkg.dev/cloudrun/container/worker-pool:latest。
CPU：CPU 數量。您必須指定至少 4 個 CPU。
MEMORY：記憶體大小。您必須指定至少 16Gi (16 GiB)。
GPU_TYPE：值 nvidia-l4 (nvidia-L4 小寫 L，而非數值 14)。

查看 GPU 設定

如要查看 Cloud Run 工作人員集區目前的 GPU 設定：

控制台

前往 Google Cloud 控制台的 Cloud Run 工作人員集區頁面：

前往 Cloud Run worker 集區
按一下所需的工作站集區，開啟「工作站集區詳細資料」頁面。
按一下「編輯及部署新的修訂版本」。
在設定詳細資料中找出 GPU 設定。

gcloud

使用下列指令：

gcloud beta run worker-pools describe WORKER_POOL

在傳回的設定中找出 GPU 設定。

移除 GPU

您可以使用 Google Cloud 控制台、Google Cloud CLI 或 YAML 移除 GPU。

控制台

前往 Google Cloud 控制台的 Cloud Run：

前往 Cloud Run
從選單中選取「工作站集區」，然後按一下「部署容器」，設定新的工作站集區。如要設定現有工作站集區，請按一下該集區，然後按一下「編輯並部署新修訂版本」。
如要設定新的工作站集區，請填寫初始工作站集區設定頁面，然後按一下「容器、磁碟區、網路與安全性」，展開工作站集區設定頁面。
按一下「容器」分頁標籤。

取消勾選 GPU 核取方塊。

按一下 [Create] (建立) 或 [Deploy] (部署)。

gcloud

如要移除 GPU，請將 GPU 數量設為 0：

  gcloud beta run worker-pools update WORKER_POOL --gpu 0

將 WORKER_POOL 替換為 Cloud Run 工作人員集區名稱。

YAML

如要建立新服務，請略過這個步驟。如要更新現有服務，請下載其 YAML 設定：
```
gcloud run services describe SERVICE --format export > service.yaml
```
刪除 nvidia.com/gpu: 和 nodeSelector: run.googleapis.com/accelerator: nvidia-l4 行。

使用下列指令建立或更新服務：

gcloud run services replace service.yaml

程式庫

根據預設，所有 NVIDIA L4 驅動程式庫都會掛接在 /usr/local/nvidia/lib64 下方。Cloud Run 會自動將這個路徑附加至含 GPU 容器的 LD_LIBRARY_PATH 環境變數 (即 ${LD_LIBRARY_PATH}:/usr/local/nvidia/lib64)。動態連結器就能找到 NVIDIA 驅動程式庫。連結器會依您在 LD_LIBRARY_PATH 環境變數中列出的順序，搜尋及解析路徑。您在這個變數中指定的任何值，都會優先於預設的 Cloud Run 驅動程式程式庫路徑 /usr/local/nvidia/lib64。

如要使用高於 12.2 的 CUDA 版本，最簡單的方法是依附於已安裝向前相容套件的較新 NVIDIA 基本映像檔。你也可以手動安裝 NVIDIA 前向相容性套件，並將這些套件新增至 LD_LIBRARY_PATH。請參閱 NVIDIA 的相容性矩陣，判斷哪些 CUDA 版本與提供的 NVIDIA 驅動程式版本 (535.216.03) 向前相容。

worker 集區的 GPU 支援 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

支援的地區

支援的 GPU 類型

價格影響

GPU 可用區備援機制選項

服務水準協議

申請提高配額

事前準備

必要的角色

設定含 GPU 的 Cloud Run worker 集區

控制台

gcloud

YAML

Terraform

查看 GPU 設定

控制台

gcloud

移除 GPU

控制台

gcloud

YAML

程式庫

worker 集區的 GPU 支援