从命令行创建 Deep Learning VM 实例

本主题介绍了如何从命令行创建新的 Deep Learning VM Image 实例。您可以通过自己喜爱的 SSH 应用使用 gcloud 命令行工具,也可以在 Cloud Shell 中使用该命令行工具。

准备工作

如需使用 Google Cloud CLI 创建新的 Deep Learning VM 实例,您必须先安装并初始化 Google Cloud CLI

  1. 按照安装 Google Cloud CLI 上提供的说明下载并安装 Google Cloud CLI。
  2. 按照初始化 Cloud SDK 上提供的说明初始化 SDK。

如需在 Cloud Shell 中使用 gcloud,请先按照启动 Cloud Shell 上提供的说明激活 Cloud Shell。

接下来,请选择要使用的特定 Deep Learning VM 映像。您的选择取决于您的首选框架和处理器类型。如需详细了解可用的映像,请参阅选择映像

创建不带 GPU 的实例

如需预配带有 CPU 但不带 GPU 的 Deep Learning VM 实例,请运行以下命令:

export IMAGE_FAMILY="tf-ent-latest-cpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release

选项:

  • --image-family 必须是特定于 CPU 的映像类型之一。如需了解详情,请参阅选择映像

  • --image-project 必须为 deeplearning-platform-release

创建带有一个或多个 GPU 的实例

Compute Engine 提供了将 GPU 添加到虚拟机实例的选项。GPU 为许多复杂数据和机器学习任务提供了更快的处理速度。如需详细了解 GPU,请参阅 Compute Engine 上的 GPU

如需预配带有一个或多个 GPU 的 Deep Learning VM 实例,请运行以下命令:

export IMAGE_FAMILY="tf-ent-latest-gpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release \
  --maintenance-policy=TERMINATE \
  --accelerator="type=nvidia-tesla-v100,count=1" \
  --metadata="install-nvidia-driver=True"

选项:

  • --image-family 必须是特定于 GPU 的映像类型之一。如需了解详情,请参阅选择映像

  • --image-project 必须为 deeplearning-platform-release

  • --maintenance-policy 必须为 TERMINATE。如需了解详情,请参阅 GPU 限制

  • --accelerator 指定要使用的 GPU 类型,必须采用 --accelerator="type=TYPE,count=COUNT" 格式指定。受支持的 TYPE 值如下:

    • nvidia-tesla-v100count=18
    • nvidia-tesla-p100count=124
    • nvidia-tesla-p4count=124
    • nvidia-tesla-k80count=1248

    并非所有区域都支持所有 GPU 类型。如需了解详情,请参阅 Compute Engine 上的 GPU

  • --metadata 用于指定系统应该为您安装 NVIDIA 驱动程序。其值为 install-nvidia-driver=True。如果指定该选项,则 Compute Engine 会在第一次启动时加载最新的稳定版驱动程序并执行必要的步骤(包括最后重新启动以激活该驱动程序)。

如果您选择了安装 NVIDIA 驱动程序,则需要 3-5 分钟才能完成安装。

完全预配好虚拟机最长可能需要 5 分钟。在此期间,您将无法通过 SSH 连接到您的机器。安装完成后,为确保该驱动程序安装成功,您可以通过 SSH 连接到您的机器并运行 nvidia-smi

配置映像后,您可以保存映像的快照,以便启动派生实例,而无需等待安装驱动程序。

创建抢占式实例

您可以创建抢占式 Deep Learning VM 实例。与常规实例相比,抢占式实例的创建和运行费用要低得多。但是,如果 Compute Engine 需要访问这些资源以处理其他任务,可能会停止(抢占)这些实例。抢占式实例将始终在 24 小时后停止。如需详细了解抢占式实例,请参阅抢占式虚拟机实例

如需创建抢占式 Deep Learning VM 实例,请执行以下操作:

  • 按照上面的说明创建新实例,然后将以下项附加到 gcloud compute instances create 命令:

      --preemptible

后续步骤

如需了解如何通过 Google Cloud 控制台或命令行连接到新的 Deep Learning VM 实例,请参阅连接到实例。实例名称就是在您指定的部署名称后方加上 -vm