本文說明如何從 A3 Ultra 或 A4 機器系列建立附加 GPU 的執行個體。如要進一步瞭解如何建立附加 GPU 的執行個體,請參閱「建立附加 GPU 的執行個體總覽」。
事前準備
- 如要查看建立附加 GPU 的執行個體時的限制和額外必要步驟,例如如何選取 OS 映像檔或檢查 GPU 配額,請參閱建立附加 GPU 的執行個體總覽。
-
如果尚未設定驗證,請先完成設定。
「驗證」是指驗證身分的程序,確認您有權存取 Google Cloud 服務和 API。如要從本機開發環境執行程式碼或範例,請選取下列任一選項,向 Compute Engine 進行驗證:
Select the tab for how you plan to use the samples on this page:
Console
When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.
gcloud
-
安裝 Google Cloud CLI。 安裝完成後,執行下列指令初始化 Google Cloud CLI:
gcloud init
如果您使用外部識別資訊提供者 (IdP),請先 使用聯合身分登入 gcloud CLI。
- Set a default region and zone.
REST
如要在本機開發環境中使用本頁的 REST API 範例,請使用您提供給 gcloud CLI 的憑證。
安裝 Google Cloud CLI。 安裝完成後,執行下列指令初始化 Google Cloud CLI:
gcloud init
如果您使用外部識別資訊提供者 (IdP),請先 使用聯合身分登入 gcloud CLI。
詳情請參閱 Google Cloud 驗證說明文件中的「Authenticate for using REST」。
必要的角色
如要取得建立執行個體所需的權限,請要求管理員授予您專案的 Compute 執行個體管理員 (v1) (
roles/compute.instanceAdmin.v1
) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。這個預先定義的角色具備建立執行個體所需的權限。如要查看確切的必要權限,請展開「必要權限」部分:
所需權限
如要建立執行個體,必須具備下列權限:
-
專案的
compute.instances.create
-
如要使用自訂映像檔建立 VM:
compute.images.useReadOnly
在映像檔上 -
如要使用快照建立 VM:
compute.snapshots.useReadOnly
快照 -
如要使用執行個體範本建立 VM,請按照下列步驟操作:
compute.instanceTemplates.useReadOnly
在執行個體範本上 -
如要將舊版網路指派給 VM,請按照下列步驟操作:
compute.networks.use
專案 -
如要為 VM 指定靜態 IP 位址:
專案的
compute.addresses.use
-
使用舊版網路時,如要將外部 IP 位址指派給 VM,請在專案中設定
compute.networks.useExternalIp
。 -
如要為 VM 指定子網路,請在專案或所選子網路上授予
compute.subnetworks.use
權限。 -
使用虛擬私有雲網路時,如要將外部 IP 位址指派給 VM,請在專案或所選子網路上取得
compute.subnetworks.useExternalIp
權限。 -
如要為 VM 設定 VM 執行個體中繼資料,請在專案中執行下列指令:
compute.instances.setMetadata
-
如要為 VM 設定標記,請按照下列步驟操作:
compute.instances.setTags
在 VM 上 -
如要為 VM 設定標籤,請按照下列步驟操作:
compute.instances.setLabels
在 VM 上 -
如要設定 VM 使用的服務帳戶:
compute.instances.setServiceAccount
在 VM 上 -
為 VM 建立新磁碟:
compute.disks.create
專案的 -
如要以唯讀或讀寫模式附加現有磁碟:
磁碟的
compute.disks.use
-
如要以唯讀模式連接現有磁碟:
compute.disks.useReadOnly
磁碟的
判斷如何建立 A3 Ultra 或 A4 執行個體
您可以透過下列建立選項使用 A3 Ultra 或 A4 執行個體, 每個選項都有不同的建立程序、資源可用性和價格。根據工作負載,找出要使用的選項。
如需執行長時間的 AI 和 ML 工作負載 (例如大型模型訓練和推論),且需要最低延遲時間,請建立使用 Cluster Director 提供的功能和服務的 VM 或叢集。有了 Cluster Director,您就能預留密集分配的機器,提供拓撲感知排程,以及強化監控和維護功能。如要進一步瞭解 Cluster Director,請參閱 AI 超級電腦說明文件中的「Cluster Director」。
如需建立 A3 Ultra 或 A4 執行個體的說明,請參閱 AI Hypercomputer 說明文件中的「建立 VM 和叢集總覽」。
如果您需要短期 AI 和機器學習工作負載,請選擇下列其中一個選項:
如果工作負載需要執行最多 90 天,且網路延遲時間極短,請使用日曆模式中的未來預訂要求,預訂未來日期的密集分配機器。在預留期間開始時,您可以使用預留容量建立 A3 Ultra 或 A4 執行個體。預訂期結束時,Compute Engine 會刪除預訂項目和所有使用該項目的 VM。
如要瞭解如何建立使用預訂項目的 A3 Ultra 或 A4 執行個體,請參閱本文的「建立 A3 Ultra 或 A4 執行個體」一節。
如果工作負載隨時可以啟動,且需要特定數量的 VM 才能啟動,請在代管執行個體群組 (MIG) 中使用規模調整要求。您可以透過 MIG 大小調整要求,在資源可用時,要求 Compute Engine 一次將多個 VM 新增至 MIG。這些 VM 最多可執行七天。由於資源是從安全集區提供,因此與隨選要求相比,您更有機會取得 GPU。
如要進一步瞭解 MIG 規模調整要求,請參閱關於 MIG 的規模調整要求。
如果工作負載可容許服務中斷,使用 Spot VM 就能享有大幅折扣。您可以視需要建立及刪除 Spot VM。不過,Spot VM 是有限的資源,Compute Engine 隨時可能會搶佔 (自動停止或刪除) Spot VM,以回收容量。如要進一步瞭解 Spot VM,請參閱「Spot VM」。
如要瞭解如何使用 Spot VM 建立 A3 Ultra 或 A4 執行個體,請參閱本文的「建立 A3 Ultra 或 A4 執行個體」一節。
建立 A3 Ultra 或 A4 執行個體
如要使用預留項目或 Spot VM 建立 A3 Ultra 或 A4 執行個體,請完成下列步驟:
建立虛擬私有雲網路
如果是 A4 或 A3 Ultra 機型,您必須為下列網路介面建立三個 VPC 網路:
- 2 個虛擬私有雲網路,適用於 gVNIC 網路介面 (NIC)。這些位址用於主機間的通訊。
- CX7 NIC 必須使用 1 個具有 RDMA 網路設定檔的虛擬私有雲網路。這個網路需要有 8 個子網路 (每個 CX7 NIC 各一個),用於 GPU 對 GPU 通訊。
如要進一步瞭解 NIC 配置,請參閱「查看網路頻寬和 NIC 配置」。
您可以按照操作說明手動設定網路,也可以使用提供的指令碼自動設定。
操作指南
如要建立網路,請按照下列操作說明進行:
- 如要為 gVNIC 建立虛擬私有雲網路,請參閱「建立及管理虛擬私有雲網路」。
- 如要使用 RDMA 網路設定檔建立虛擬私有雲網路,請參閱「為 RDMA NIC 建立虛擬私有雲網路」。
對於這些 VPC 網路,建議您將最大傳輸單元 (MTU) 設為較大的值。 如果是 A4 或 A3 Ultra 機型,建議的 MTU 為
8896
位元組。 如要查看其他 GPU 機器類型的建議 MTU 設定,請參閱「GPU 機器類型的 MTU 設定」。指令碼
如要建立網路,請按照下列步驟操作:
- 使用這個指令碼建立網路。
對於這些 VPC 網路,建議您將最大傳輸單元 (MTU) 設為較大的值。 如果是 A4 或 A3 Ultra 機型,建議的 MTU 為
8896
位元組。 如要查看其他 GPU 機器類型的建議 MTU 設定,請參閱「GPU 機器類型的 MTU 設定」。#!/bin/bash # Create standard VPCs (network and subnets) for the gVNICs for N in $(seq 0 1); do gcloud compute networks create GVNIC_NAME_PREFIX-net-$N \ --subnet-mode=custom \ --mtu=8896 gcloud compute networks subnets create GVNIC_NAME_PREFIX-sub-$N \ --network=GVNIC_NAME_PREFIX-net-$N \ --region=REGION \ --range=10.$N.0.0/16 gcloud compute firewall-rules create GVNIC_NAME_PREFIX-internal-$N \ --network=GVNIC_NAME_PREFIX-net-$N \ --action=ALLOW \ --rules=tcp:0-65535,udp:0-65535,icmp \ --source-ranges=10.0.0.0/8 done # Create SSH firewall rules gcloud compute firewall-rules create GVNIC_NAME_PREFIX-ssh \ --network=GVNIC_NAME_PREFIX-net-0 \ --action=ALLOW \ --rules=tcp:22 \ --source-ranges=IP_RANGE # Assumes that an external IP is only created for vNIC 0 gcloud compute firewall-rules create GVNIC_NAME_PREFIX-allow-ping-net-0 \ --network=GVNIC_NAME_PREFIX-net-0 \ --action=ALLOW \ --rules=icmp \ --source-ranges=IP_RANGE # List and make sure network profiles exist in the machine type's zone gcloud compute network-profiles list --filter "location.name=ZONE" # Create network for CX-7 gcloud compute networks create RDMA_NAME_PREFIX-mrdma \ --network-profile=ZONE-vpc-roce \ --subnet-mode custom \ --mtu=8896 # Create subnets for N in $(seq 0 7); do gcloud compute networks subnets create RDMA_NAME_PREFIX-mrdma-sub-$N \ --network=RDMA_NAME_PREFIX-mrdma \ --region=REGION \ --range=10.$((N+2)).0.0/16 # offset to avoid overlap with gVNICs done
更改下列內容:
GVNIC_NAME_PREFIX
:用於 gVNIC 標準虛擬私有雲網路和子網路的自訂名稱前置字元。RDMA_NAME_PREFIX
:要用於虛擬私有雲網路和子網路的自訂名稱前置字串,其中包含 CX7 NIC 的 RDMA 網路設定檔。ZONE
:指定您要使用的機器類型所在的區域,例如us-central1-a
。如要瞭解區域,請參閱各區域和可用區的 GPU 供應情形。REGION
:您要建立子網路的地區。這個區域必須與指定的可用區相符。舉例來說,如果可用區是us-central1-a
,則區域為us-central1
。IP_RANGE
:用於 SSH 防火牆規則的 IP 範圍。
-
選用:如要確認虛擬私有雲網路資源是否建立成功,請在 Google Cloud 控制台中檢查網路設定:
- 在 Google Cloud 控制台中,前往「VPC networks」(虛擬私有雲網路) 頁面。
- 在清單中搜尋您在上一個步驟中建立的網路。
- 如要查看子網路、防火牆規則和其他網路設定,請按一下網路名稱。
建立執行個體
如要建立 A3 Ultra 或 A4 執行個體,請選取下列其中一種方法:
建立使用預留資源的執行個體
如要建立使用預留項目的執行個體,請使用下列其中一個選項:
主控台
前往 Google Cloud 控制台的「Create an instance」(建立執行個體) 頁面。
系統會顯示「建立執行個體」畫面,以及「機器設定」窗格。
在「機器設定」窗格中,完成下列步驟:
指定執行個體的「Name」(名稱)。請參閱「資源命名慣例」。
選取已預留容量的「Region」(區域) 和「Zone」(可用區)。
按一下「GPU」分頁標籤,然後完成下列步驟:
在「GPU type」(GPU 類型) 清單中,選取 GPU 類型。
如果是 A4 執行個體,請選取「NVIDIA B200」。
如果是 A3 Ultra 執行個體,請選取「NVIDIA H200 141GB」。
在「Number of GPUs」(GPU 數量) 清單中,選取「8」。
在導覽選單中,按一下「OS 和儲存空間」。在隨即顯示的「作業系統和儲存空間」窗格中,完成下列步驟:
點選「變更」。系統隨即會顯示「Boot disk configuration」(開機磁碟設定) 窗格。
在「Public images」(公開映像檔) 分頁中,選取建議的映像檔。如需建議的映像檔清單,請參閱「作業系統」。
如要確認開機磁碟選項,請按一下「Select」(選取)。
如要建立多重 NIC 執行個體,請完成下列步驟。否則,如要建立單一 NIC 執行個體,請略過這些步驟。
在導覽選單中,按一下「Networking」(網路)。在隨即顯示的「Networking」(網路) 窗格中,完成下列步驟:
在「網路介面」部分,完成下列步驟:
刪除預設網路介面。如要刪除介面,請按一下
「刪除」。按一下「新增網路介面」。使用這個選項新增您在上一節建立的 gVNIC 和 RDMA 網路。新增電視網時,請注意下列事項:
在「Network」(網路)和「Subnetwork」(子網路) 清單中指定主機網路,並將「Network interface card」(網路介面卡) 清單設為「gVNIC」。
在「網路」和「子網路」清單中指定 GPU 網路,並將這些網路的「網路介面卡」清單設為「MRDMA」。
在導覽選單中,按一下「進階」。在隨即顯示的「進階」窗格中,完成下列步驟:
在「Reservations」(預留項目) 部分,選取「Choose a reservation」(選取預留項目),然後點選「Choose reservation」(選取預留項目)。畫面上會隨即顯示窗格,列出所選區域內的可用預訂項目。在預訂清單中,完成下列步驟:
選取要用於 VM 的預訂項目。您也可以選取預訂中的特定時段。
按一下「選擇」。
在「佈建模式」部分,展開「VM 佈建模式進階設定」部分。
在「On VM termination」(VM 終止時) 清單中,選取「Stop」(停止) (預設) 或「Delete」(刪除)。
如要建立並啟動執行個體,請按一下「建立」。
gcloud
如要建立 VM,請使用
gcloud compute instances create
指令。gcloud compute instances create VM_NAME \ --machine-type=MACHINE_TYPE \ --image-family=IMAGE_FAMILY \ --image-project=IMAGE_PROJECT \ --zone=ZONE \ --boot-disk-type=hyperdisk-balanced \ --boot-disk-size=DISK_SIZE \ --scopes=cloud-platform \ --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-0,subnet=GVNIC_NAME_PREFIX-sub-0 \ --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-1,subnet=GVNIC_NAME_PREFIX-sub-1,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-0,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-1,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-2,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-3,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-4,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-5,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-6,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-7,no-address \ --reservation-affinity=specific \ --reservation=RESERVATION \ --provisioning-model=RESERVATION_BOUND \ --instance-termination-action=TERMINATION_ACTION \ --maintenance-policy=TERMINATE
更改下列內容:
VM_NAME
:VM 名稱。MACHINE_TYPE
:VM 使用的機器類型。請指定 A4 或 A3 Ultra 機器類型。詳情請參閱 GPU 機器類型。IMAGE_FAMILY
:您要使用的 OS 映像檔映像檔系列。 如需支援的作業系統清單,請參閱「作業系統詳細資料」。IMAGE_PROJECT
:OS 映像檔的專案 ID。ZONE
:您要使用的機器類型所在的可用區。 如要瞭解地區,請參閱 GPU 地區和區域。DISK_SIZE
:開機磁碟的大小,單位為 GB。GVNIC_NAME_PREFIX
:建立使用 gVNIC 的標準 VPC 網路和子網路時指定的名稱前置字元。RDMA_NAME_PREFIX
:建立使用 RDMA NIC 的虛擬私有雲網路和子網路時指定的名稱前置字元。-
RESERVATION
:預留項目名稱,或是預留項目中的特定區塊。如要取得預留名稱或可用區塊,請參閱「查看預留容量」。根據執行個體放置位置的需求,選擇下列其中一個選項:如要在任何區塊建立執行個體,請按照下列步驟操作:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME
此外,如要在同一個區塊中建立多個執行個體,請在建立每個執行個體時,套用指定區塊並置 (
maxDistance=2
) 的相同精簡刊登位置政策。Compute Engine 隨後會將政策套用至預留項目,並在同一區塊中建立執行個體。如要在特定區塊上建立執行個體,請按照下列步驟操作:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME
TERMINATION_ACTION
:Compute Engine 會在預訂期間結束時停止 (STOP
) 或刪除 (DELETE
) VM。
REST
如要建立 VM,請對
instances.insert
方法發出POST
要求。POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances { "machineType":"projects/PROJECT_ID/zones/ZONE/machineTypes/MACHINE_TYPE", "name":"VM_NAME", "disks":[ { "boot":true, "initializeParams":{ "diskSizeGb":"DISK_SIZE", "diskType":"hyperdisk-balanced", "sourceImage":"projects/IMAGE_PROJECT/global/images/family/IMAGE_FAMILY" }, "mode":"READ_WRITE", "type":"PERSISTENT" } ], "networkInterfaces": [ { "accessConfigs": [ { "name": "external-nat", "type": "ONE_TO_ONE_NAT" } ], "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-0", "nicType": "GVNIC", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-0" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-1", "nicType": "GVNIC", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-1" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-0" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-1" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-2" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-3" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-4" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-5" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-6" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-7" } ], "reservationAffinity":{ "consumeReservationType":"SPECIFIC_RESERVATION", "key":"compute.googleapis.com/reservation-name", "values":[ "RESERVATION" ] }, "scheduling":{ "provisioningModel":"RESERVATION_BOUND", "instanceTerminationAction":"TERMINATION_ACTION", "onHostMaintenance": "TERMINATE", "automaticRestart":true } }
更改下列內容:
PROJECT_ID
:要在其中建立 VM 的專案 ID。ZONE
:您要使用的機器類型所在的可用區。 如要瞭解地區,請參閱 GPU 地區和區域。MACHINE_TYPE
:VM 使用的機器類型。請指定 A4 或 A3 Ultra 機器類型。詳情請參閱 GPU 機器類型。VM_NAME
:VM 名稱。DISK_SIZE
:開機磁碟的大小,單位為 GB。IMAGE_PROJECT
:OS 映像檔的專案 ID。IMAGE_FAMILY
:您要使用的 OS 映像檔映像檔系列。 如需支援的作業系統清單,請參閱「作業系統詳細資料」。NETWORK_PROJECT_ID
:網路的專案 ID。GVNIC_NAME_PREFIX
:建立使用 gVNIC 的標準 VPC 網路和子網路時指定的名稱前置字元。REGION
:子網路的區域。RDMA_NAME_PREFIX
:建立使用 RDMA NIC 的虛擬私有雲網路和子網路時指定的名稱前置字元。-
RESERVATION
:預留項目名稱,或是預留項目中的特定區塊。如要取得預留名稱或可用區塊,請參閱「查看預留容量」。根據執行個體放置位置的需求,選擇下列其中一個選項:如要在任何區塊建立執行個體,請按照下列步驟操作:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME
此外,如要在同一個區塊中建立多個執行個體,請在建立每個執行個體時,套用指定區塊並置 (
maxDistance=2
) 的相同精簡刊登位置政策。Compute Engine 隨後會將政策套用至預留項目,並在同一區塊中建立執行個體。如要在特定區塊上建立執行個體,請按照下列步驟操作:
projects/RESERVATION_OWNER_PROJECT_ID/reservations/RESERVATION_NAME/reservationBlocks/RESERVATION_BLOCK_NAME
TERMINATION_ACTION
:Compute Engine 會在預訂期間結束時停止 (STOP
) 或刪除 (DELETE
) VM。
建立 Spot VM
如要建立 Spot VM,請使用下列任一選項:
主控台
前往 Google Cloud 控制台的「Create an instance」(建立執行個體) 頁面。
系統會顯示「建立執行個體」畫面,以及「機器設定」窗格。
在「機器設定」窗格中,完成下列步驟:
在導覽選單中,按一下「OS 和儲存空間」。在隨即顯示的「作業系統和儲存空間」窗格中,完成下列步驟:
點選「變更」。系統隨即會顯示「Boot disk configuration」(開機磁碟設定) 窗格。
在「Public images」(公開映像檔) 分頁中,選取建議的映像檔。如需建議的映像檔清單,請參閱「作業系統」。
如要確認開機磁碟選項,請按一下「Select」(選取)。
如要建立多重 NIC 執行個體,請完成下列步驟。否則,如要建立單一 NIC 執行個體,請略過這些步驟。
在導覽選單中,按一下「Networking」(網路)。在隨即顯示的「Networking」(網路) 窗格中,完成下列步驟:
在「網路介面」部分,完成下列步驟:
刪除預設網路介面。如要刪除介面,請按一下
「刪除」。按一下「新增網路介面」。使用這個選項新增您在上一節建立的 gVNIC 和 RDMA 網路。新增電視網時,請務必執行下列操作:
在「Network」(網路)和「Subnetwork」(子網路) 清單中指定主機網路,並將「Network interface card」(網路介面卡) 清單設為「gVNIC」。
在「網路」和「子網路」清單中指定 GPU 網路,並將這些網路的「網路介面卡」清單設為「MRDMA」。
在導覽選單中,按一下「進階」。在隨即顯示的「進階」窗格中,完成下列步驟:
在「佈建模型」部分,從「VM 佈建模型」清單中選取「Spot」。
選用:如要指定 Compute Engine 先占執行個體時要採取的動作,請完成下列步驟:
展開「VM 佈建模式進階設定」部分。
在「On VM termination」(終止 VM 時) 清單中,選取「Stop」(停止) 或「Delete」(刪除)。
如要建立並啟動執行個體,請按一下「建立」。
gcloud
如要建立 VM,請使用
gcloud compute instances create
指令。gcloud compute instances create VM_NAME \ --machine-type=MACHINE_TYPE \ --image-family=IMAGE_FAMILY \ --image-project=IMAGE_PROJECT \ --zone=ZONE \ --boot-disk-type=hyperdisk-balanced \ --boot-disk-size=DISK_SIZE \ --scopes=cloud-platform \ --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-0,subnet=GVNIC_NAME_PREFIX-sub-0 \ --network-interface=nic-type=GVNIC,network=GVNIC_NAME_PREFIX-net-1,subnet=GVNIC_NAME_PREFIX-sub-1,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-0,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-1,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-2,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-3,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-4,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-5,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-6,no-address \ --network-interface=nic-type=MRDMA,network=RDMA_NAME_PREFIX-mrdma,subnet=RDMA_NAME_PREFIX-mrdma-sub-7,no-address \ --provisioning-model=SPOT \ --instance-termination-action=TERMINATION_ACTION
更改下列內容:
VM_NAME
:VM 名稱。MACHINE_TYPE
:VM 使用的機器類型。請指定 A4 或 A3 Ultra 機器類型。詳情請參閱 GPU 機器類型。IMAGE_FAMILY
:您要使用的 OS 映像檔映像檔系列。 如需支援的作業系統清單,請參閱「作業系統詳細資料」。IMAGE_PROJECT
:OS 映像檔的專案 ID。ZONE
:您要使用的機器類型所在的可用區。 如要瞭解地區,請參閱 GPU 地區和區域。DISK_SIZE
:開機磁碟的大小,單位為 GB。GVNIC_NAME_PREFIX
:建立使用 gVNIC 的標準 VPC 網路和子網路時指定的名稱前置字元。RDMA_NAME_PREFIX
:建立使用 RDMA NIC 的虛擬私有雲網路和子網路時指定的名稱前置字元。TERMINATION_ACTION
:Compute Engine 預先終止執行個體時採取的動作,可以是STOP
(預設) 或DELETE
。
REST
如要建立 VM,請對
instances.insert
方法發出POST
要求。POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances { "machineType":"projects/PROJECT_ID/zones/ZONE/machineTypes/MACHINE_TYPE", "name":"VM_NAME", "disks":[ { "boot":true, "initializeParams":{ "diskSizeGb":"DISK_SIZE", "diskType":"hyperdisk-balanced", "sourceImage":"projects/IMAGE_PROJECT/global/images/family/IMAGE_FAMILY" }, "mode":"READ_WRITE", "type":"PERSISTENT" } ], "networkInterfaces": [ { "accessConfigs": [ { "name": "external-nat", "type": "ONE_TO_ONE_NAT" } ], "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-0", "nicType": "GVNIC", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-0" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/GVNIC_NAME_PREFIX-net-1", "nicType": "GVNIC", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/GVNIC_NAME_PREFIX-sub-1" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-0" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-1" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-2" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-3" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-4" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-5" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-6" }, { "network": "projects/NETWORK_PROJECT_ID/global/networks/RDMA_NAME_PREFIX-mrdma", "nicType": "MRDMA", "subnetwork": "projects/NETWORK_PROJECT_ID/region/REGION/subnetworks/RDMA_NAME_PREFIX-mrdma-sub-7" } ], "scheduling": { "provisioningModel": "SPOT", "instanceTerminationAction": "TERMINATION_ACTION" } }
更改下列內容:
PROJECT_ID
:要在其中建立 VM 的專案 ID。ZONE
:您要使用的機器類型所在的可用區。 如要瞭解地區,請參閱 GPU 地區和區域。MACHINE_TYPE
:VM 使用的機器類型。請指定 A4 或 A3 Ultra 機器類型。詳情請參閱 GPU 機器類型。VM_NAME
:VM 名稱。DISK_SIZE
:開機磁碟的大小,單位為 GB。IMAGE_PROJECT
:OS 映像檔的專案 ID。IMAGE_FAMILY
:您要使用的 OS 映像檔映像檔系列。 如需支援的作業系統清單,請參閱「作業系統詳細資料」。NETWORK_PROJECT_ID
:網路的專案 ID。GVNIC_NAME_PREFIX
:建立使用 gVNIC 的標準 VPC 網路和子網路時指定的名稱前置字元。REGION
:子網路的區域。RDMA_NAME_PREFIX
:建立使用 RDMA NIC 的虛擬私有雲網路和子網路時指定的名稱前置字元。TERMINATION_ACTION
:Compute Engine 預先終止執行個體時採取的動作,可以是STOP
(預設) 或DELETE
。
準備執行個體以供使用
如要準備使用已連結 GPU 的執行個體,請完成下列步驟:
如要讓 A4 或 A3 Ultra 執行個體使用附加的 GPU,執行個體必須安裝 GPU 驅動程式。除非執行個體中的映像檔已包含必要的 GPU 驅動程式,否則請安裝 GPU 驅動程式。
如果您在上一個章節中建立了 Spot VM,請完成下列步驟:
如要為 Spot VM 準備潛在的先占作業,請參閱「管理 Spot VM 的先占作業」。
選用:瞭解 Spot VM 的最佳做法。
後續步驟
如要監控 GPU 效能,請參閱「監控 GPU 效能」。
如要排解 GPU 執行個體問題,請參閱「排解 GPU VM 問題」。
進一步瞭解 GPU 平台。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2025-07-31 (世界標準時間)。
-