本文說明如何從 A3 Ultra 或 A4 機器系列建立附加 GPU 的執行個體。如要進一步瞭解如何建立附加 GPU 的執行個體,請參閱「建立附加 GPU 的執行個體總覽」。
A3 Ultra 和 A4 執行個體支援 Cluster Director。有了 Cluster Director,您就能預留密集分配的機器,提供拓撲感知排程,以及強化監控和維護作業。如要進一步瞭解 Cluster Director,請參閱 AI 超級電腦說明文件中的「Cluster Director」。
事前準備
- 如要查看建立附加 GPU 的執行個體時的限制和額外必要步驟,例如如何選取 OS 映像檔或檢查 GPU 配額,請參閱建立附加 GPU 的執行個體總覽。
-
如果尚未設定驗證,請先完成設定。
驗證可確認您的身分,以便存取 Google Cloud 服務和 API。如要從本機開發環境執行程式碼或範例,可以選取下列任一選項,向 Compute Engine 進行驗證:
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
-
安裝 Google Cloud CLI。 安裝完成後,執行下列指令初始化 Google Cloud CLI:
gcloud init
如果您使用外部識別資訊提供者 (IdP),請先 使用聯合身分登入 gcloud CLI。
- Set a default region and zone.
REST
如要在本機開發環境中使用本頁的 REST API 範例,請使用您提供給 gcloud CLI 的憑證。
安裝 Google Cloud CLI。 安裝完成後,執行下列指令初始化 Google Cloud CLI:
gcloud init
如果您使用外部識別資訊提供者 (IdP),請先 使用聯合身分登入 gcloud CLI。
詳情請參閱 Google Cloud 驗證說明文件中的「Authenticate for using REST」。
必要的角色
如要取得建立執行個體所需的權限,請要求管理員授予您專案的 Compute 執行個體管理員 (v1) (
roles/compute.instanceAdmin.v1
) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。這個預先定義的角色具備建立執行個體所需的權限。如要查看確切的必要權限,請展開「必要權限」部分:
所需權限
如要建立執行個體,必須具備下列權限:
-
專案的
compute.instances.create
-
如要使用自訂映像檔建立 VM:
compute.images.useReadOnly
在映像檔上 -
如要使用快照建立 VM:
compute.snapshots.useReadOnly
快照 -
如要使用執行個體範本建立 VM,請按照下列步驟操作:
compute.instanceTemplates.useReadOnly
在執行個體範本上 -
如要為 VM 指定子網路,請在專案或所選子網路上授予
compute.subnetworks.use
權限。 -
如要為 VM 指定靜態 IP 位址:
專案的
compute.addresses.use
-
使用虛擬私有雲網路時,如要將外部 IP 位址指派給 VM:
compute.subnetworks.useExternalIp
專案或所選子網路的權限 -
如要將舊版網路指派給 VM,請按照下列步驟操作:
compute.networks.use
專案 -
使用舊版網路時,如要將外部 IP 位址指派給 VM,請在專案中設定
compute.networks.useExternalIp
。 -
如要為 VM 設定 VM 執行個體中繼資料,請在專案中執行下列指令:
compute.instances.setMetadata
-
如要為 VM 設定標記,請按照下列步驟操作:
compute.instances.setTags
在 VM 上 -
如要為 VM 設定標籤,請按照下列步驟操作:
compute.instances.setLabels
在 VM 上 -
如要設定 VM 使用的服務帳戶:
compute.instances.setServiceAccount
在 VM 上 -
為 VM 建立新磁碟:
compute.disks.create
專案 -
如要以唯讀或讀寫模式附加現有磁碟:
磁碟的
compute.disks.use
-
如要以唯讀模式連接現有磁碟:
compute.disks.useReadOnly
磁碟的權限
判斷如何建立 A3 Ultra 或 A4 執行個體
如要判斷要使用哪些選項建立 A3 Ultra 或 A4 執行個體,請完成下列步驟:
選擇使用選項:如要瞭解如何為 A3 Ultra 或 A4 執行個體選擇使用選項,請參閱 AI Hypercomputer 說明文件中的「選擇使用選項」。
取得容量:如要瞭解如何取得 A3 Ultra 或 A4 執行個體的容量,以使用您選擇的消費選項,請參閱 AI Hypercomputer 說明文件中的「容量總覽」。
選取建立說明:如要瞭解建立 A3 Ultra 或 A4 執行個體的所有選項,例如代管執行個體群組 (MIG) 或叢集,請參閱 AI Hypercomputer 說明文件中的「建立 VM 和叢集總覽」。
如要使用 Cluster Director 功能,或不想建立獨立執行個體,請改為選取 AI Hypercomputer 說明文件中的建立選項。
建立 A3 Ultra 或 A4 執行個體
如要建立 A3 Ultra 或 A4 執行個體,請完成下列步驟:
建立虛擬私有雲網路
如要為 A4 或 A3 Ultra 機型設定網路,請為下列網路介面建立三個虛擬私有雲網路:
- gVNIC 網路介面 (NIC) 適用 2 個一般虛擬私有雲網路。這些位址用於主機間的通訊。
- CX-7 NIC 必須使用 1 個具有 RoCE 網路設定檔的虛擬私有雲網路。RoCE 虛擬私有雲網路需要有 8 個子網路,每個 CX-7 NIC 各有一個子網路。這些 NIC 使用 RDMA over Converged Ethernet (RoCE),提供 GPU 對 GPU 通訊所需的高頻寬、低延遲通訊。
如要進一步瞭解 NIC 配置,請參閱「查看網路頻寬和 NIC 配置」。
您可以按照操作說明手動建立網路,也可以使用提供的指令碼自動建立網路。
操作指南
如要建立網路,請按照下列操作說明進行:
- 如要為 gVNIC 建立一般虛擬私有雲網路,請參閱「建立及管理虛擬私有雲網路」。
- 如要建立 RoCE 虛擬私有雲網路,請參閱「為 RDMA NIC 建立虛擬私有雲網路」。
對於這些 VPC 網路,建議您將最大傳輸單元 (MTU) 設為較大的值。 如果是 A4 或 A3 Ultra 機型,建議的 MTU 為
8896
位元組。 如要查看其他 GPU 機器類型的建議 MTU 設定,請參閱「GPU 機器類型的 MTU 設定」。指令碼
如要建立網路,請按照下列步驟操作。
對於這些 VPC 網路,建議您將最大傳輸單元 (MTU) 設為較大的值。 如果是 A4 或 A3 Ultra 機型,建議的 MTU 為
8896
位元組。 如要查看其他 GPU 機器類型的建議 MTU 設定,請參閱「GPU 機器類型的 MTU 設定」。使用下列指令碼為 gVNIC 和 CX-7 NIC 建立 VPC 網路。
#!/bin/bash # Create regular VPC networks and subnets for the gVNICs for N in $(seq 0 1); do gcloud compute networks create GVNIC_NAME_PREFIX-net-$N \ --subnet-mode=custom \ --mtu=8896 gcloud compute networks subnets create GVNIC_NAME_PREFIX-sub-$N \ --network=GVNIC_NAME_PREFIX-net-$N \ --region=REGION \ --range=10.$N.0.0/16 gcloud compute firewall-rules create GVNIC_NAME_PREFIX-internal-$N \ --network=GVNIC_NAME_PREFIX-net-$N \ --action=ALLOW \ --rules=tcp:0-65535,udp:0-65535,icmp \ --source-ranges=10.0.0.0/8 done # Create SSH firewall rules gcloud compute firewall-rules create GVNIC_NAME_PREFIX-ssh \ --network=GVNIC_NAME_PREFIX-net-0 \ --action=ALLOW \ --rules=tcp:22 \ --source-ranges=IP_RANGE # Assumes that an external IP is only created for vNIC 0 gcloud compute firewall-rules create GVNIC_NAME_PREFIX-allow-ping-net-0 \ --network=GVNIC_NAME_PREFIX-net-0 \ --action=ALLOW \ --rules=icmp \ --source-ranges=IP_RANGE # List and make sure network profiles exist in the machine type's zone gcloud compute network-profiles list --filter "location.name=ZONE" # Create network for CX-7 gcloud compute networks create RDMA_NAME_PREFIX-mrdma \ --network-profile=ZONE-vpc-roce \ --subnet-mode custom \ --mtu=8896 # Create subnets for N in $(seq 0 7); do gcloud compute networks subnets create RDMA_NAME_PREFIX-mrdma-sub-$N \ --network=RDMA_NAME_PREFIX-mrdma \ --region=REGION \ --range=10.$((N+2)).0.0/16 # offset to avoid overlap with gVNICs done
更改下列內容:
GVNIC_NAME_PREFIX
:用於 gVNIC 一般虛擬私有雲網路和子網路的自訂名稱前置字串。RDMA_NAME_PREFIX
:用於 CX-7 NIC 的 RoCE 虛擬私有雲網路和子網路的自訂名稱前置字串。ZONE
:指定您要使用的機器類型所在的區域,例如us-central1-a
。如要瞭解區域,請參閱各區域和可用區的 GPU 供應情形。REGION
:您要建立子網路的地區。這個區域必須與指定的可用區相符。舉例來說,如果可用區是us-central1-a
,則區域為us-central1
。IP_RANGE
:用於 SSH 防火牆規則的 IP 範圍。
- 選用:如要確認虛擬私有雲網路資源是否建立成功,請在 Google Cloud 控制台中檢查網路設定:
- 在 Google Cloud 控制台中,前往「VPC networks」(虛擬私有雲網路) 頁面。
- 在清單中搜尋您在上一個步驟中建立的網路。
- 如要查看子網路、防火牆規則和其他網路設定,請按一下網路名稱。
建立執行個體
如要建立執行個體,請使用下列任一選項。如要使用彈性啟動佈建模式,必須使用 Google Cloud CLI 或 REST 建立 VM。
主控台
前往 Google Cloud 控制台的「Create an instance」(建立執行個體) 頁面。
系統會顯示「建立執行個體」畫面,以及「機器設定」窗格。
在「機器設定」窗格中,完成下列步驟:
指定執行個體的「Name」(名稱)。請參閱「資源命名慣例」。
選取已預留容量的「Region」(區域) 和「Zone」(可用區)。
按一下「GPU」分頁標籤,然後完成下列步驟:
在「GPU type」(GPU 類型) 清單中,選取 GPU 類型。
如果是 A4 執行個體,請選取「NVIDIA B200」。
如果是 A3 Ultra 執行個體,請選取「NVIDIA H200 141GB」。
在「Number of GPUs」(GPU 數量) 清單中,選取「8」。
在導覽選單中,按一下「OS 和儲存空間」。在隨即顯示的「作業系統和儲存空間」窗格中,完成下列步驟:
點選「變更」。系統隨即會顯示「開機磁碟設定」窗格。
在「Public images」(公開映像檔) 分頁中,選取建議的映像檔。如需建議的映像檔清單,請參閱「作業系統」。
如要確認開機磁碟選項,請按一下「Select」(選取)。
如要建立多重 NIC 執行個體,請完成下列步驟。否則,如要建立單一 NIC 執行個體,請略過這些步驟。
在導覽選單中,按一下「網路」。在隨即顯示的「Networking」(網路) 窗格中,完成下列步驟:
在「Network interfaces」(網路介面) 區段中,完成下列步驟:
刪除預設網路介面。如要刪除介面,請按一下
「刪除」。按一下「新增網路介面」。使用這個選項新增網路介面,並附加至您在前一節中建立的虛擬私有雲網路。新增網路介面時,請注意下列事項:
如要用於主機對主機通訊的網路介面,請從「網路」和「子網路」清單中選取一般虛擬私有雲網路和子網路,並將「網路介面卡」清單設為「gVNIC」。
如要用於 GPU 對 GPU 通訊的網路介面,請從「網路」和「子網路」清單中選取 RoCE 虛擬私有雲網路和子網路,並將這些網路介面的「網路介面卡」清單設為「MRDMA」。
在導覽選單中,按一下「進階」。接著,請根據要使用的佈建模型完成下列步驟。
取決於預留項目
按一下「選擇預留項目」。這項操作會開啟窗格,其中列出所選區域內的可用預訂項目。在預訂清單中,完成下列步驟:
- 選取要用於 VM 的預訂項目。您也可以選取預訂中的特定時段。
- 按一下「選擇」。
Spot
- 在「佈建模型」部分,從「VM 佈建模型」清單中選取「Spot」。
選用:如要選取 Compute Engine 預先終止 VM 時執行的終止動作,請完成下列步驟:
- 展開「VM 佈建模式進階設定」 部分。
- 在「On VM termination」(VM 終止時) 清單中,選取下列其中一個選項:
- 如要在先佔期間停止 VM,請選取「停止」 (預設)。
- 如要在搶占期間刪除 VM,請選取「刪除」。
如要建立並啟動執行個體,請按一下「建立」。
gcloud
如要建立 VM,請使用
gcloud compute instances create
指令。您需要指定的參數取決於用於這項部署作業的消耗選項。選取與用量選項的佈建模式對應的分頁。
彈性啟動
gcloud compute instances create VM_NAME \ --machine-type=MACHINE_TYPE \ --image-family=IMAGE_FAMILY \ --image-project=IMAGE_PROJECT \ --zone=ZONE \ --boot-disk-type=hyperdisk-balanced \ --boot-disk-size=DISK_SIZE \ --scopes=cloud-platform \ --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-0,subnet=GVNIC_NAME_PREFIX-sub-0 \ --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-1,subnet=GVNIC_NAME_PREFIX-sub-1,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-0,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-1,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-2,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-3,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-4,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-5,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-6,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-7,no-address \ --reservation-affinity=none \ --provisioning-model=FLEX_START \ --request-valid-for-duration=REQUEST_VALID_FOR_DURATION \ --max-run-duration=MAX_RUN_DURATION \ --instance-termination-action=DELETE \ --maintenance-policy=TERMINATE
更改下列內容:
VM_NAME
:VM 名稱。MACHINE_TYPE
:VM 要使用的機器類型。詳情請參閱 GPU 機器類型。IMAGE_FAMILY
:您要使用的 OS 映像檔的映像檔系列。 如需支援的作業系統清單,請參閱「作業系統詳細資料」。IMAGE_PROJECT
:OS 映像檔的專案 ID。ZONE
:您要使用的機器類型所在的可用區。 如需區域相關資訊,請參閱各區域和可用區的 GPU 供應情形。DISK_SIZE
:開機磁碟的大小,單位為 GB。GVNIC_NAME_PREFIX
:建立使用 gVNIC 的標準 VPC 網路和子網路時指定的名稱前置字元。RDMA_NAME_PREFIX
:建立使用 RDMA NIC 的虛擬私有雲網路和子網路時指定的名稱前置字元。REQUEST_VALID_FOR_DURATION
:建立 VM 的要求有效時間長度。您必須將值格式化為天數、時數、分鐘數或秒數,並分別加上d
、h
、m
和s
。舉例來說,如要指定 30 分鐘,請輸入30m
;如要指定 1 天 2 小時 3 分鐘 4 秒,請輸入1d2h3m4s
。如未指定時間長度,預設時間長度為 90 秒。根據工作負載的區域需求,建議您指定下列其中一個時間長度,提高 VM 建立要求成功的機率:
- 有嚴格區域限制的工作負載:如果工作負載要求您在特定區域中建立 VM,請指定 90 秒到 2 小時的期限。時間越長,獲得資源的機率就越高。
- 沒有嚴格區域限制的工作負載:如果 VM 可以在區域內的任何可用區執行,請指定零秒的持續時間 (
0
)。這項動作會指定 Compute Engine 僅在資源可立即使用時分配資源。如果資源無法使用,導致 VM 建立要求失敗,請在其他可用區重試要求。
MAX_RUN_DURATION
:要求的 VM 執行時間長度。您必須將值格式化為天數、時數、分鐘數或秒數,後接d
、h
、m
和s
。舉例來說,指定30m
代表 30 分鐘,指定1d2h3m4s
則代表 1 天 2 小時 3 分 4 秒。值必須介於 10 分鐘至 7 天之間。
取決於預留項目
gcloud compute instances create VM_NAME \ --machine-type=MACHINE_TYPE \ --image-family=IMAGE_FAMILY \ --image-project=IMAGE_PROJECT \ --zone=ZONE \ --boot-disk-type=hyperdisk-balanced \ --boot-disk-size=DISK_SIZE \ --scopes=cloud-platform \ --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-0,subnet=GVNIC_NAME_PREFIX-sub-0 \ --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-1,subnet=GVNIC_NAME_PREFIX-sub-1,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-0,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-1,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-2,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-3,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-4,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-5,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-6,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-7,no-address \ --reservation-affinity=specific \ --reservation=RESERVATION \ --provisioning-model=RESERVATION_BOUND \ --instance-termination-action=TERMINATION_ACTION \ --maintenance-policy=TERMINATE
更改下列內容:
VM_NAME
:VM 名稱。MACHINE_TYPE
:VM 要使用的機器類型。詳情請參閱 GPU 機器類型。IMAGE_FAMILY
:您要使用的 OS 映像檔的映像檔系列。 如需支援的作業系統清單,請參閱「作業系統詳細資料」。IMAGE_PROJECT
:OS 映像檔的專案 ID。ZONE
:您要使用的機器類型所在的可用區。 如需區域相關資訊,請參閱各區域和可用區的 GPU 供應情形。DISK_SIZE
:開機磁碟的大小,單位為 GB。GVNIC_NAME_PREFIX
:建立使用 gVNIC 的標準 VPC 網路和子網路時指定的名稱前置字元。RDMA_NAME_PREFIX
:建立使用 RDMA NIC 的虛擬私有雲網路和子網路時指定的名稱前置字元。-
RESERVATION
:保留項目名稱或保留項目中的特定區塊。如要取得預留名稱或可用區塊,請參閱「查看預留容量」。根據執行個體放置位置的需求,選擇下列其中一個選項:如要在任何區塊建立執行個體,請按照下列步驟操作:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME
此外,如要在同一個區塊中建立多個執行個體,請在建立每個執行個體時,套用指定區塊並置 (
maxDistance=2
) 的相同精簡刊登位置政策。Compute Engine 隨後會將政策套用至預留項目,並在同一區塊中建立執行個體。如要在特定區塊上建立執行個體,請按照下列步驟操作:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME
TERMINATION_ACTION
:Compute Engine 會在預訂期間結束時停止 (STOP
) 或刪除 (DELETE
) VM。
Spot
gcloud compute instances create VM_NAME \ --machine-type=MACHINE_TYPE \ --image-family=IMAGE_FAMILY \ --image-project=IMAGE_PROJECT \ --zone=ZONE \ --boot-disk-type=hyperdisk-balanced \ --boot-disk-size=DISK_SIZE \ --scopes=cloud-platform \ --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-0,subnet=GVNIC_NAME_PREFIX-sub-0 \ --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-1,subnet=GVNIC_NAME_PREFIX-sub-1,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-0,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-1,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-2,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-3,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-4,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-5,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-6,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-7,no-address \ --provisioning-model=SPOT \ --instance-termination-action=TERMINATION_ACTION
更改下列內容:
VM_NAME
:VM 名稱。MACHINE_TYPE
:VM 要使用的機器類型。詳情請參閱 GPU 機器類型。IMAGE_FAMILY
:您要使用的 OS 映像檔的映像檔系列。 如需支援的作業系統清單,請參閱「作業系統詳細資料」。IMAGE_PROJECT
:OS 映像檔的專案 ID。ZONE
:您要使用的機器類型所在的可用區。 如需區域相關資訊,請參閱各區域和可用區的 GPU 供應情形。DISK_SIZE
:開機磁碟的大小,單位為 GB。GVNIC_NAME_PREFIX
:建立使用 gVNIC 的標準 VPC 網路和子網路時指定的名稱前置字元。RDMA_NAME_PREFIX
:建立使用 RDMA NIC 的虛擬私有雲網路和子網路時指定的名稱前置字元。TERMINATION_ACTION
:Compute Engine 預先終止執行個體時採取的動作,可以是STOP
(預設) 或DELETE
。
REST
如要建立 VM,請對
instances.insert
方法發出POST
要求。您需要指定的參數取決於用於這項部署作業的消耗選項。選取與用量選項的佈建模式對應的分頁。
彈性啟動
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances { "machineType": "projects/PROJECT_ID/zones/ZONE/machineTypes/MACHINE_TYPE", "name": "VM_NAME", "disks":[ { "boot":true, "initializeParams":{ "diskSizeGb": "DISK_SIZE", "diskType": "hyperdisk-balanced", "sourceImage": "projects/IMAGE_PROJECT/global/images/family/IMAGE_FAMILY" }, "mode": "READ_WRITE", "type": "PERSISTENT" } ], "serviceAccounts": [ { "email": "default", "scopes": [ "https://www.googleapis.com/auth/cloud-platform" ] } ], "networkInterfaces": [ { "accessConfigs": [ { "name": "external-nat", "type": "ONE_TO_ONE_NAT" } ], "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-0", "nicType": "GVNIC", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-0" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-1", "nicType": "GVNIC", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-1" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-0" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-1" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-2" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-3" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-4" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-5" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-6" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-7" } ], "reservationAffinity":{ "consumeReservationType": "NO_RESERVATION", }, "scheduling":{ "provisioningModel": "FLEX_START", "requestValidForDuration": { "seconds": REQUEST_VALID_FOR_DURATION }, "maxRunDuration": { "seconds": MAX_RUN_DURATION }, "instanceTerminationAction": "DELETE", "onHostMaintenance": "TERMINATE", } }
更改下列內容:
PROJECT_ID
:要在其中建立 VM 的專案 ID。ZONE
:您要使用的機器類型所在的可用區。 如需區域相關資訊,請參閱各區域和可用區的 GPU 供應情形。MACHINE_TYPE
:VM 要使用的機器類型。詳情請參閱 GPU 機器類型。VM_NAME
:VM 名稱。DISK_SIZE
:開機磁碟的大小,單位為 GB。IMAGE_PROJECT
:OS 映像檔的專案 ID。IMAGE_FAMILY
:您要使用的 OS 映像檔的映像檔系列。 如需支援的作業系統清單,請參閱「作業系統詳細資料」。NETWORK_PROJECT_ID
:網路的專案 ID。GVNIC_NAME_PREFIX
:建立使用 gVNIC 的標準 VPC 網路和子網路時指定的名稱前置字元。REGION
:子網路的區域。RDMA_NAME_PREFIX
:建立使用 RDMA NIC 的虛擬私有雲網路和子網路時指定的名稱前置字元。REQUEST_VALID_FOR_DURATION
:建立 VM 的要求有效時間長度。您必須將值格式化為天數、時數、分鐘數或秒數,並分別加上d
、h
、m
和s
。舉例來說,如要指定 30 分鐘,請輸入30m
;如要指定 1 天 2 小時 3 分鐘 4 秒,請輸入1d2h3m4s
。如未指定時間長度,預設時間長度為 90 秒。根據工作負載的區域需求,建議您指定下列其中一個時間長度,提高 VM 建立要求成功的機率:
- 有嚴格區域限制的工作負載:如果工作負載要求您在特定區域中建立 VM,請指定 90 秒到 2 小時的期限。時間越長,獲得資源的機率就越高。
- 沒有嚴格區域限制的工作負載:如果 VM 可以在區域內的任何可用區執行,請指定零秒的持續時間 (
0
)。這項動作會指定 Compute Engine 僅在資源可立即使用時分配資源。如果資源無法使用,導致 VM 建立要求失敗,請在其他可用區重試要求。
MAX_RUN_DURATION
:要求的 VM 執行時間長度。值必須以秒數格式表示。舉例來說,如要指定一天,請輸入86400
。值必須介於 10 分鐘至 7 天之間。
取決於預留項目
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances { "machineType": "projects/PROJECT_ID/zones/ZONE/machineTypes/MACHINE_TYPE", "name": "VM_NAME", "disks":[ { "boot":true, "initializeParams":{ "diskSizeGb": "DISK_SIZE", "diskType": "hyperdisk-balanced", "sourceImage": "projects/IMAGE_PROJECT/global/images/family/IMAGE_FAMILY" }, "mode": "READ_WRITE", "type": "PERSISTENT" } ], "serviceAccounts": [ { "email": "default", "scopes": [ "https://www.googleapis.com/auth/cloud-platform" ] } ], "networkInterfaces": [ { "accessConfigs": [ { "name": "external-nat", "type": "ONE_TO_ONE_NAT" } ], "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-0", "nicType": "GVNIC", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-0" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-1", "nicType": "GVNIC", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-1" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-0" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-1" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-2" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-3" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-4" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-5" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-6" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-7" } ], "reservationAffinity":{ "consumeReservationType": "SPECIFIC_RESERVATION", "key": "compute.googleapis.com/reservation-name", "values":[ "RESERVATION" ] }, "scheduling":{ "provisioningModel": "RESERVATION_BOUND", "instanceTerminationAction": "TERMINATION_ACTION", "onHostMaintenance": "TERMINATE", "automaticRestart": true } }
更改下列內容:
PROJECT_ID
:要在其中建立 VM 的專案 ID。ZONE
:您要使用的機器類型所在的可用區。 如需區域相關資訊,請參閱各區域和可用區的 GPU 供應情形。MACHINE_TYPE
:VM 要使用的機器類型。詳情請參閱 GPU 機器類型。VM_NAME
:VM 名稱。DISK_SIZE
:開機磁碟的大小,單位為 GB。IMAGE_PROJECT
:OS 映像檔的專案 ID。IMAGE_FAMILY
:您要使用的 OS 映像檔的映像檔系列。 如需支援的作業系統清單,請參閱「作業系統詳細資料」。NETWORK_PROJECT_ID
:網路的專案 ID。GVNIC_NAME_PREFIX
:建立使用 gVNIC 的標準 VPC 網路和子網路時指定的名稱前置字元。REGION
:子網路的區域。RDMA_NAME_PREFIX
:建立使用 RDMA NIC 的虛擬私有雲網路和子網路時指定的名稱前置字元。-
RESERVATION
:保留項目名稱或保留項目中的特定區塊。如要取得預留名稱或可用區塊,請參閱「查看預留容量」。根據執行個體放置位置的需求,選擇下列其中一個選項:如要在任何區塊建立執行個體,請按照下列步驟操作:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME
此外,如要在同一個區塊中建立多個執行個體,請在建立每個執行個體時,套用指定區塊並置 (
maxDistance=2
) 的相同精簡刊登位置政策。Compute Engine 隨後會將政策套用至預留項目,並在同一區塊中建立執行個體。如要在特定區塊上建立執行個體,請按照下列步驟操作:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME
TERMINATION_ACTION
:Compute Engine 會在預訂期間結束時停止 (STOP
) 或刪除 (DELETE
) VM。
Spot
POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances { "machineType": "projects/PROJECT_ID/zones/ZONE/machineTypes/MACHINE_TYPE", "name": "VM_NAME", "disks":[ { "boot":true, "initializeParams":{ "diskSizeGb": "DISK_SIZE", "diskType": "hyperdisk-balanced", "sourceImage": "projects/IMAGE_PROJECT/global/images/family/IMAGE_FAMILY" }, "mode": "READ_WRITE", "type": "PERSISTENT" } ], "serviceAccounts": [ { "email": "default", "scopes": [ "https://www.googleapis.com/auth/cloud-platform" ] } ], "networkInterfaces": [ { "accessConfigs": [ { "name": "external-nat", "type": "ONE_TO_ONE_NAT" } ], "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-0", "nicType": "GVNIC", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-0" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-1", "nicType": "GVNIC", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-1" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-0" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-1" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-2" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-3" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-4" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-5" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-6" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-7" } ], "scheduling": { "provisioningModel": "SPOT", "instanceTerminationAction": "TERMINATION_ACTION" } }
更改下列內容:
PROJECT_ID
:要在其中建立 VM 的專案 ID。ZONE
:您要使用的機器類型所在的可用區。 如需區域相關資訊,請參閱各區域和可用區的 GPU 供應情形。MACHINE_TYPE
:VM 要使用的機器類型。詳情請參閱 GPU 機器類型。VM_NAME
:VM 名稱。DISK_SIZE
:開機磁碟的大小,單位為 GB。IMAGE_PROJECT
:OS 映像檔的專案 ID。IMAGE_FAMILY
:您要使用的 OS 映像檔的映像檔系列。 如需支援的作業系統清單,請參閱「作業系統詳細資料」。NETWORK_PROJECT_ID
:網路的專案 ID。GVNIC_NAME_PREFIX
:建立使用 gVNIC 的標準 VPC 網路和子網路時指定的名稱前置字元。REGION
:子網路的區域。RDMA_NAME_PREFIX
:建立使用 RDMA NIC 的虛擬私有雲網路和子網路時指定的名稱前置字元。TERMINATION_ACTION
:Compute Engine 預先終止執行個體時採取的動作,可以是STOP
(預設) 或DELETE
。
準備好要使用的執行個體
如要準備使用已連結 GPU 的執行個體,請完成下列步驟:
如要讓 A4 或 A3 Ultra 執行個體使用附加的 GPU,執行個體必須安裝 GPU 驅動程式。除非執行個體中的映像檔已包含必要的 GPU 驅動程式,否則請安裝 GPU 驅動程式。
如果您在上一個章節中建立了 Spot VM,請完成下列步驟:
如要為 Spot VM 準備潛在的先占作業,請參閱「管理 Spot VM 的先占作業」。
選用:瞭解 Spot VM 的最佳做法。
後續步驟
如要監控 GPU 效能,請參閱「監控 GPU 效能」。
如要排解 GPU 執行個體問題,請參閱「排解 GPU VM 問題」。
進一步瞭解 GPU 平台。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2025-09-25 (世界標準時間)。
-