主要概念和组件

本页将介绍 Cloud Datalab 的一些主要概念和组件详细信息。您可以在 Cloud Datalab datalab/docs/notebooks/intro 笔记本目录中找到其他概览文档。

Cloud Datalab 和笔记本

Cloud Datalab 被打包为一个容器并在某个 VM(虚拟机)实例中运行。快速入门介绍了如何创建虚拟机、在该虚拟机中运行容器以及建立从浏览器到 Cloud Datalab 容器的连接(利用该连接,您可以打开现有的 Cloud Datalab 笔记本和创建新的笔记本)。请通读 /docs/intro 目录中的入门级笔记本以了解笔记本的组织和执行方式。

Cloud Datalab 使用笔记本来代替包含代码的文本文件。笔记本将代码、使用 markdown 格式编写的文档以及代码执行结果(无论是文本、图片还是 HTML/JavaScript)汇集在一起。就像代码编辑器或 IDE 一样,笔记本可以帮助您编写代码,让您能够以一种交互和迭代的方式执行代码,并将结果与代码一起呈现。此外,当您与团队成员共享笔记本时,可以加入代码、markdown 格式的文档以及包含交互式图表的结果,以便他们更好地掌握背景信息,这些信息比只使用 Python 或 SQL 代码文件所能提供的信息更丰富。

Cloud Datalab 笔记本可以存储在 Google Cloud Source Repositories 代码库(一种 git 代码库)中。此 git 代码库会被克隆至已附加到虚拟机的永久性磁盘上。此克隆操作将为您搭建一个工作区,您可以在其中添加、移除和修改文件。要与代码库的其他用户分享您的工作,请使用 git 客户端提交更改内容,以便将您的更改内容从本地工作区推送到代码库。系统会定期将笔记本自动保存到永久性磁盘,您也可以根据需要随时保存它们。请注意,如果删除了永久性磁盘,则任何未显式推送到 git 代码库的笔记本都可能会丢失。因此,我们强烈建议您不要删除永久性磁盘。

当您打开笔记本时,系统会启动一个后端“内核”进程来管理在会话期间定义的变量并执行您的笔记本代码。当执行的代码访问各种 Google Cloud 服务(如 BigQuery 或 Google Machine Learning Engine)时,它将使用虚拟机中可用的服务帐号。因此,该服务帐号必须获得授权才能访问数据或请求服务。要显示 Cloud 项目和服务帐号名称,请点击浏览器中的 Cloud Datalab 笔记本或笔记本列表页面右上角的用户图标 user-icon(您可能需要调整浏览器窗口的大小才能看到该图标)。用于运行 Cloud Datalab 的虚拟机是相关联的 Cloud 项目的所有成员均可访问的一种共享资源。因此,我们强烈建议不要使用个人云凭据来访问数据。

在笔记本中执行代码时,代码执行进程的状态会发生变化。如果您分配或重新分配某个变量,会发生副作用,它的值将用于后续计算过程。在 Cloud Datalab 中,每个正在运行的笔记本均显示为一个会话。您可以点击 Cloud Datalab 笔记本列表页面上的会话图标 session-icon 来列出和停止会话。当会话正在运行时,底层进程会消耗内存资源。如果停止某个会话,则底层进程及其内存状态将消失,系统会释放该会话所使用的内存。保存在笔记本中的结果将以永久性的格式保留在磁盘上。

Cloud Datalab 使用场景

Cloud Datalab 是专为 Google Cloud Platform 打造的交互式数据分析和机器学习环境。您可以使用 Cloud Datalab 以交互的方式探索、分析、转换和直观呈现数据,并根据数据构建机器学习模型。在 Cloud Datalab /docs 文件夹中,您将找到一些教程和示例,其中说明了您可以执行的部分任务。Cloud Datalab 包含一组常用的开放源代码 Python 库,用于数据分析、直观呈现和机器学习。它还添加了用于访问 Google BigQuery、Google Machine Learning Engine、Google Dataflow 和 Google Cloud Storage 等主要 Google Cloud Platform 服务的库。如需了解详情,请参阅包含的库

如需了解 Python 库,请参阅 pydatalab 参考文档

以下这些方法可帮助您顺利入门:

  • 编写几个 SQL 查询来探索 BigQuery 中的数据。将结果放入 Dataframe 中,并以直方图或折线图的形式直观呈现这些结果数据。
  • 从 Google Cloud Storage 中的 CSV 文件读取数据,并将其放入 Dataframe 中,以便使用 Python 计算各种统计度量值,例如平均值、标准偏差和分位数。
  • 尝试使用 TensorFlow 或 scikit-learn 模型来预测结果或对数据进行分类。

包含的库

以下是 Cloud Datalab 笔记本中包含的可供使用的库列表(库列表和版本信息随时可能更改)。

已通过 Conda 安装:

crcmod at version 1.7
dask at version 0.17.1
dill at version 0.2.6
future at version 0.16.0
futures at version 3.2.0
google-api-python-client at version 1.6.2
httplib2 at version 0.10.3
h5py at version 2.7.1
ipykernel at version 4.8.2
ipywidgets at version 7.2.1
jinja2 at version 2.8
jsonschema at version 2.6.0
matplotlib at version 2.1.2
mock at version 2.0.0
nltk at version 3.2.1
numpy at version 1.14.0
oauth2client at version 2.2.0
pandas-gbq at version 0.3.0
pandas at version 0.22.0
pandocfilters at version 1.4.2
pillow at version 5.0.0
pip at version 18.1
plotly at version 1.12.5
psutil at version 4.3.0
pygments at version 2.1.3
python-dateutil at version 2.5.0
python-snappy at version 0.5.1
pytz at version 2018.4
pyzmq at version 17.1.0
requests at version 2.18.4
scikit-image at version 0.13.0
scikit-learn at version 0.19.1
scipy at version 1.0.0
seaborn at version 0.7.0
six at version 1.11.0
statsmodels at version 0.8.0
sympy at version 0.7.6.1
tornado at version 4.5.1
widgetsnbextension at version 3.2.1
xgboost at version 0.6a2

已通过 pip 安装:

apache-airflow at version 1.9.0
apache-beam[gcp] at version 2.7.0
bs4 at version 0.0.1
ggplot at version 0.6.8
google-cloud-monitoring at version 0.28.0
lime at version 0.1.1.23
protobuf at version 3.5.2
tensorflow at version 1.8.0

请注意,futurefuturesapache-beam\[gcp\] 仅安装于 Python 2 内核上,而 notebook 则仅安装于 Python 3 内核上。

此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
Cloud Datalab 文档