本頁面說明如何建立已預先安裝 PyTorch 和其他工具的 PyTorch 深度學習 VM 映像檔執行個體。您可以在 Google Cloud 控制台或使用指令列,從 Cloud Marketplace 建立 PyTorch 執行個體。
事前準備
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
- 如果您要搭配 GPU 使用深度學習 VM,請查看配額頁面,確保您的專案有足夠的 GPU。如果配額頁面未列出 GPU,或您需要額外的 GPU 配額,請要求增加配額。
前往 Google Cloud 控制台的「Deep Learning VM Cloud Marketplace」(深度學習 VM Cloud Marketplace) 頁面。
按一下「開始使用」。
輸入「Deployment name」(部署作業名稱),這會是您 VM 名稱的根。Compute Engine 在為執行個體命名時,會在這個名稱後方加上
-vm
。選取「區域」。
在「Machine type」(機器類型) 下方,選取 VM 的規格。進一步瞭解機器類型。
在「GPUs」(GPU) 下方,選取「GPU type」(GPU 類型) 和「Number of GPUs」(GPU 數量)。 如不想使用 GPU,請按一下「刪除 GPU」按鈕,然後跳至步驟 7。進一步瞭解 GPU。
在「Framework」下方,選取「PyTorch 1.8 + fast.ai 2.1 (CUDA 11.0)」。
如果您使用 GPU,則需要 NVIDIA 驅動程式。 您可以自行安裝驅動程式,也可以選取「在第一次啟動時自動安裝 NVIDIA GPU 驅動程式」。
您可以選取「Enable access to JupyterLab via URL instead of SSH (Beta)」,啟用這項 Beta 版功能後,您就能使用網址存取 JupyterLab 執行個體。專案中具有編輯者或擁有者角色的使用者都可存取這個網址。Google Cloud 目前這項功能僅適用於美國、歐盟和亞洲。
選取開機磁碟類型和大小。
選取所需的網路設定。
按一下 [Deploy] (部署)。
- 按照「安裝 Google Cloud CLI」中的指示下載並安裝 Google Cloud CLI。
- 按照初始化 Cloud SDK 一文中的指示初始化 SDK。
--image-family
必須是pytorch-latest-cpu
或pytorch-VERSION-cpu
(例如pytorch-1-13-cpu
)。--image-project
必須為deeplearning-platform-release
。--image-family
必須是pytorch-latest-gpu
或pytorch-VERSION-CUDA-VERSION
(例如pytorch-1-10-cu110
)。--image-project
必須為deeplearning-platform-release
。--maintenance-policy
必須為TERMINATE
。詳情請參閱 GPU 限制一節。--accelerator
是用來指定要使用的 GPU 類型,格式必須為--accelerator="type=TYPE,count=COUNT"
。例如:--accelerator="type=nvidia-tesla-p100,count=2"
。 如需可用 GPU 類型和數量的清單,請參閱 GPU 型號表。某些地區僅支援部分 GPU 類型。詳情請參閱 GPU 地區和區域可用性。
--metadata
是用來指定系統應代表您安裝 NVIDIA 驅動程式,值為install-nvidia-driver=True
。如有指定,Compute Engine 會在第一次啟動時載入最新的穩定版驅動程式,並執行必要的步驟 (包括最後一次重新啟動以啟用驅動程式)。按照上述操作說明,使用指令列建立新的執行個體,並在
gcloud compute instances create
指令後方加上以下內容:--preemptible
透過 Cloud Marketplace 建立 PyTorch 深度學習 VM 執行個體
如要透過 Cloud Marketplace 建立 PyTorch 深度學習 VM 執行個體,請完成下列步驟:
如果您選擇安裝 NVIDIA 驅動程式,安裝作業需要 3 到 5 分鐘才能完成。
VM 部署完成後,這個頁面會更新,並提供存取該執行個體的操作說明。
透過指令列建立 PyTorch 深度學習 VM 執行個體
如要使用 Google Cloud CLI 建立新的深度學習 VM 執行個體,您必須先安裝並初始化 Google Cloud CLI:
如要在 Cloud Shell 中使用 gcloud
,請先按照啟動 Cloud Shell 一文中的指示啟用 Cloud Shell。
不加入任何 GPU
如要使用最新的 PyTorch 映像檔系列和 CPU 建立深度學習 VM 執行個體,請在指令列中輸入以下內容:
export IMAGE_FAMILY="pytorch-latest-cpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"
gcloud compute instances create $INSTANCE_NAME \
--zone=$ZONE \
--image-family=$IMAGE_FAMILY \
--image-project=deeplearning-platform-release
選項:
加入一或多個 GPU
Compute Engine 提供在虛擬機器執行個體中加入一或多個 GPU 的選項。GPU 可加快許多複雜資料和機器學習工作的處理速度。如要進一步瞭解 GPU,請參閱 Compute Engine 上的 GPU 一文。
如要使用最新的 PyTorch 映像檔系列和一或多個附加的 GPU 建立深度學習 VM 執行個體,請在指令列中輸入以下內容:
export IMAGE_FAMILY="pytorch-latest-gpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"
gcloud compute instances create $INSTANCE_NAME \
--zone=$ZONE \
--image-family=$IMAGE_FAMILY \
--image-project=deeplearning-platform-release \
--maintenance-policy=TERMINATE \
--accelerator="type=nvidia-tesla-v100,count=1" \
--metadata="install-nvidia-driver=True"
選項:
如果您選擇安裝 NVIDIA 驅動程式,安裝作業需要 3 到 5 分鐘才能完成。
VM 可能需要 5 分鐘才能佈建完成。在這段期間,您無法透過 SSH 連線到您的機器。安裝作業完成後,為了確保驅動程式安裝成功,您可以透過 SSH 連線並執行 nvidia-smi
。
如果您已設定映像檔,可以儲存映像檔快照,這樣就能啟動衍生性執行個體,而不必等候安裝驅動程式。
建立先占執行個體
您可以建立先占深度學習 VM 執行個體。先占執行個體的建立和執行價格都遠低於一般執行個體。不過 Compute Engine 在需要存取其他工作所需的相關資源時,可能會停止 (先占) 這類執行個體。先占執行個體一律會在 24 小時後停止。如要進一步瞭解先占執行個體,請參閱先占 VM 執行個體一文。
如何建立先占深度學習 VM 執行個體:
後續步驟
如要瞭解如何透過 Google Cloud 主控台或指令列連線至新的深度學習 VM 執行個體,請參閱連線至執行個體一文。執行個體名稱是您指定的「部署作業名稱」,後面加上 -vm
。