排查 Vertex AI Workbench 问题

本页面介绍了在遇到 Vertex AI Workbench 使用问题时可能有帮助的问题排查步骤。

如需使用 Vertex AI 其他组件的帮助,另请参阅排查 Vertex AI 问题

若要过滤此页面的内容,请点击一个主题:

实用流程

本部分介绍了可能对您有用的过程。

使用 SSH 连接到用户管理的笔记本实例

通过在 Cloud Shell 中或安装了 Google Cloud CLI 的任何环境中输入以下命令,使用 ssh 连接到您的实例。

gcloud compute ssh --project PROJECT_ID \
  --zone ZONE \
  INSTANCE_NAME -- -L 8080:localhost:8080

替换以下内容:

  • PROJECT_ID:您的项目 ID
  • ZONE:实例所在的 Google Cloud 可用区。
  • INSTANCE_NAME:实例的名称。

向“反向代理”服务器重新注册

如需向内部反向代理服务器重新注册用户管理的笔记本实例,您可以从用户管理的笔记本页面停止和启动虚拟机,或者通过 SSH 连接到用户管理的笔记本实例,然后输入:

cd /opt/deeplearning/bin
sudo ./attempt-register-vm-on-proxy.sh

验证 Docker 服务状态

如需验证 Docker 服务状态,您可以使用 ssh 连接到由用户管理的笔记本实例,然后输入:

sudo service docker status

验证“反向代理”代理正在运行

如需验证笔记本“反向代理”代理是否正在运行,请通过 SSH 连接到用户管理的笔记本实例,然后输入:

# Confirm Inverting Proxy agent Docker container is running (proxy-agent)
sudo docker ps

# Verify State.Status is running and State.Running is true.
sudo docker inspect proxy-agent

# Grab logs
sudo docker logs proxy-agent

验证 Jupyter 服务状态并收集日志

如需验证 Jupyter 服务状态,您可以使用 ssh 连接到用户管理的笔记本实例,然后输入:

sudo service jupyter status

如需收集 Jupyter 服务日志,请执行以下操作:

sudo journalctl -u jupyter.service --no-pager

验证 Jupyter Internal API 是否处于活跃状态

如需验证 Jupyter Internal API 是否处于活跃状态,您可以通过 SSH 连接到用户管理的笔记本实例,然后输入:

curl http://127.0.0.1:8080/api/kernelspecs

重启 Docker 服务

如需重启 Docker 服务,您可以从用户管理的笔记本页面停止并启动虚拟机,或者通过 SSH 连接到用户管理的笔记本实例,然后输入以下命令:

sudo service docker restart

重启“反向代理”代理

如需重启“反向代理”代理,您可以从用户管理的笔记本页面停止和启动虚拟机,或者通过 SSH 连接到用户管理的笔记本实例,然后输入:

sudo docker restart proxy-agent

重启 Jupyter 服务

如需重启 Jupyter 服务,您可以从用户管理的笔记本页面停止并启动虚拟机,或者通过 SSH 连接到用户管理的笔记本实例,然后输入以下命令:

sudo service jupyter restart

创建实例上的用户数据的副本

如需将实例用户数据的副本存储在 Cloud Storage 中,请完成以下步骤:

创建 Cloud Storage 存储桶(可选)

在实例所在的项目中,创建一个 Cloud Storage 存储桶以存储用户数据。如果您已有 Cloud Storage 存储桶,请跳过此步骤。

  • 创建 Cloud Storage 存储分区:
    gcloud storage buckets create gs://BUCKET_NAME
    BUCKET_NAME 替换为符合存储桶名称要求的存储桶名称。

复制用户数据

  1. 在实例的 JupyterLab 界面中,选择文件 > 新建 > 终端,以打开终端窗口。对于用户管理的笔记本实例,您可以使用 SSH 连接到实例的终端。

  2. 使用 gsutil tool 将您的用户数据复制到 Cloud Storage 存储桶。以下示例命令会将实例 /home/jupyter/ 目录中的所有文件复制到 Cloud Storage 存储桶中的目录。

    gsutil cp -R /home/jupyter/* gs://BUCKET_NAMEPATH
    

    替换以下内容:

    • BUCKET_NAME:Cloud Storage 存储桶的名称。
    • PATH:您要将文件复制到的目录的路径,例如 /copy/jupyter/