本主题介绍了如何从命令行创建新的 Deep Learning VM Image 实例。您可以通过自己喜爱的 SSH 应用使用 gcloud
命令行工具,也可以在 Cloud Shell 中使用该命令行工具。
准备工作
如需使用 Google Cloud CLI 创建新的 Deep Learning VM 实例,您必须先安装并初始化 Google Cloud CLI:
- 按照安装 Google Cloud CLI 上提供的说明下载并安装 Google Cloud CLI。
- 按照初始化 Cloud SDK 上提供的说明初始化 SDK。
如需在 Cloud Shell 中使用 gcloud
,请先按照启动 Cloud Shell 上提供的说明激活 Cloud Shell。
接下来,请选择要使用的特定 Deep Learning VM 映像。您的选择取决于您的首选框架和处理器类型。如需详细了解可用的映像,请参阅选择映像。
创建不带 GPU 的实例
如需预配带有 CPU 但不带 GPU 的 Deep Learning VM 实例,请运行以下命令:
export IMAGE_FAMILY="tf-ent-latest-cpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"
gcloud compute instances create $INSTANCE_NAME \
--zone=$ZONE \
--image-family=$IMAGE_FAMILY \
--image-project=deeplearning-platform-release
选项:
--image-family
必须是特定于 CPU 的映像类型之一。如需了解详情,请参阅选择映像。--image-project
必须为deeplearning-platform-release
。
创建带有一个或多个 GPU 的实例
Compute Engine 提供了将 GPU 添加到虚拟机实例的选项。GPU 为许多复杂数据和机器学习任务提供了更快的处理速度。如需详细了解 GPU,请参阅 Compute Engine 上的 GPU。
如需预配带有一个或多个 GPU 的 Deep Learning VM 实例,请运行以下命令:
export IMAGE_FAMILY="tf-ent-latest-gpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"
gcloud compute instances create $INSTANCE_NAME \
--zone=$ZONE \
--image-family=$IMAGE_FAMILY \
--image-project=deeplearning-platform-release \
--maintenance-policy=TERMINATE \
--accelerator="type=nvidia-tesla-v100,count=1" \
--metadata="install-nvidia-driver=True"
选项:
--image-family
必须是特定于 GPU 的映像类型之一。如需了解详情,请参阅选择映像。--image-project
必须为deeplearning-platform-release
。--maintenance-policy
必须为TERMINATE
。如需了解详情,请参阅 GPU 限制。--accelerator
指定要使用的 GPU 类型,必须采用--accelerator="type=TYPE,count=COUNT"
格式指定。受支持的TYPE
值如下:nvidia-tesla-v100
(count=1
或8
)nvidia-tesla-p100
(count=1
、2
或4
)nvidia-tesla-p4
(count=1
、2
或4
)
并非所有区域都支持所有 GPU 类型。如需了解详情,请参阅 Compute Engine 上的 GPU。
--metadata
用于指定系统应该为您安装 NVIDIA 驱动程序。其值为install-nvidia-driver=True
。如果指定该选项,则 Compute Engine 会在第一次启动时加载最新的稳定版驱动程序并执行必要的步骤(包括最后重新启动以激活该驱动程序)。
如果您选择了安装 NVIDIA 驱动程序,则需要 3-5 分钟才能完成安装。
完全预配好虚拟机最长可能需要 5 分钟。在此期间,您将无法通过 SSH 连接到您的机器。安装完成后,为确保该驱动程序安装成功,您可以通过 SSH 连接到您的机器并运行 nvidia-smi
。
配置映像后,您可以保存映像的快照,以便启动派生实例,而无需等待安装驱动程序。
创建抢占式实例
您可以创建抢占式 Deep Learning VM 实例。与常规实例相比,抢占式实例的创建和运行费用要低得多。但是,如果 Compute Engine 需要访问这些资源以处理其他任务,可能会停止(抢占)这些实例。抢占式实例将始终在 24 小时后停止。如需详细了解抢占式实例,请参阅抢占式虚拟机实例。
如需创建抢占式 Deep Learning VM 实例,请执行以下操作:
按照上面的说明创建新实例,然后将以下项附加到
gcloud compute instances create
命令:--preemptible
后续步骤
如需了解如何通过 Google Cloud 控制台或命令行连接到新的 Deep Learning VM 实例,请参阅连接到实例。实例名称就是在您指定的部署名称后方加上 -vm
。