本指南将介绍如何通过将 Python 库添加到 Cloud Datalab 虚拟机实例来自定义 Cloud Datalab。
将 Python 库添加到 Cloud Datalab 实例
Cloud Datalab 包含一组库。 这些库用于支持常见的数据分析、转换和直观呈现使用场景。您可以使用以下三种机制之一添加额外的 Python 库:
选项 1:在笔记本中添加一个代码单元并使用 conda 安装库,注意要将
lib-name
替换成相应的库名称并运行该单元:!conda install -y lib-name
这是根据个人需求进行自定义的最简单方法,并且由于底层 Cloud Datalab 映像会因为重新运行代码单元而需要更新,因此涉及到最低维护。选项 1.5:使用 pip 来代替 conda。应尽可能通过 conda 来安装库,但某些库只能通过 pip 安装。在这些情况下,如上所述创建一个代码单元,但将其更改为以下内容:
!pip install lib-name
选项 2:创建一个新笔记本,添加一个包含以下内容的代码单元,必要时可将 conda 替换为 pip,注意要将
lib-name
替换成相应的库名称。如果使用 pip,请记得移除-y
。%%bash echo "conda install -y lib-name" >> /content/datalab/.config/startup.sh cat /content/datalab/.config/startup.sh
运行该单元,然后通过以下方法重启 Cloud Datalab 实例:在浏览器中点击 Cloud Datalab 笔记本或笔记本列表页面右上角的帐号图标,选择 About Datalab(关于 Datalab) 和
,然后点击 About Google Cloud Datalab(关于 Google Cloud Datalab)对话框中的 Restart Server(重启服务器)选项。选项 3:使用 Docker 自定义机制从 Cloud Datalab Docker 容器继承。与上面列出的其他选项相比,此选项的资源开销大得多(即更偏重量级)。但是,如果您想要大幅度自定义容器来供某个团队或组织使用,此选项可以提供最大的灵活性。要使用这种机制,您需要按照 Docker 文档所述构建如下所示的名为“Dockerfile-extended-example”的容器。 另请参阅 Cloud Datalab GitHub 代码库中的自定义示例。
在Dockerfile-extended-example.in
中:FROM datalab ... pip install lib-name ...
采用这种方法时,随着底层datalab
容器不断演变,您必须承担构建和维护自己的映像的额外工作。因此,我们建议只有在上述其他机制不能满足您需求的情况下才使用此方法。