使用 BigQuery 和 Cloud Datalab 分析财务时间序列

此解决方案说明了 BigQueryCloud Datalab 用作定量分析工具时的强大功能和实用性。本文档介绍了该解决方案,并将帮助您设置环境以运行基于笔记本的 Cloud Datalab 教程。

如果您是定量分析师,则可以使用各种工具和技术挖掘大数据(如市场交易历史),以获取可使您深入了解市场趋势的信息。由于报价和交易以可预测的间隔进行,因此此类数据表示您可以使用已确立的技术(包括频率分析和移动平均值)进行分析的财务时间序列。

然而,处理大量数据集可能比较困难。随着数据集的不断增多,传统工具可能无法随之扩容。存储空间方面的要求可能会像数据集一样快速增长,因此将数据下载到计算机硬盘不再是一种可行的方法。并且,从传统数据库查询中检索正确的数据子集可能需要很长时间。

BigQuery 通过使您能够运行 SQL 查询并通过 Google 基础架构的处理能力快速获取结果来解决这些问题。您可以在网页上、命令行上以及通过 API 使用 BigQuery。当与 Google Cloud Platform (GCP) 的其他组件甚至第三方工具结合使用时,BigQuery 不仅可帮助您构建目前所需的数据分析应用,同时保证您可以在未来扩缩此应用。

在此解决方案中,您使用了一个强大的数据分析模式,即 BigQuery 负责 SQL 中的繁重工作,而 Cloud Datalab 使用 Python 进行详细的数据操作和可视化。

数据安全始终是金融数据处理工作中的重要一环。GCP 以多种方式保护您的数据安全和隐私,并且所有传输中的数据和静态数据均会加密。此外,GCP 还符合 ISO 27001、ISO 27017、ISO 27018、SOC3、FINRA 和 PCI 标准

目标

  • 将数据集加载到 BigQuery 中。
  • 使用 BigQuery 和 Cloud Datalab 查询财务时间序列数据。
  • 在 Cloud Datalab 中显示查询结果。

费用

本教程使用 Google Cloud Platform 的以下收费组件:

  • Cloud Datalab:在 GCP 上运行 Cloud Datalab 所需的资源是可计费的。这些资源包括一个 Compute Engine 虚拟机、两个永久性磁盘和用于 Cloud Storage 备份的空间。如需了解详情,请参阅 Cloud Datalab 价格页面
  • BigQuery:本教程在 BigQuery 中存储近 100 MB 数据和小于 300 MB 的进程以执行一次查询。这个数据量在 BigQuery 提供的每月免费配额内,因此无需计费。如需了解 BigQuery 费用的完整详情,请参阅 BigQuery 价格页面

您可使用价格计算器根据您的预计使用情况来估算费用。GCP 新用户可能有资格免费试用

准备工作

在开始本教程前,需要设置 Cloud Datalab。

使用 Cloud Shell

从 Cloud Shell 启动

使用 Cloud SDK

如果已安装 SDK:

从 Cloud SDK 启动

如果您未安装 SDK,但想用它来设置 Cloud Datalab,请运行以下命令:

  • 安装并初始化 Cloud SDK
  • 完成笔记本中的教程

    1. 在 Cloud Datalab 主页上,点击左上角的 add_box 笔记本以添加新笔记本。

      添加一个新笔记本

      此时,浏览器会打开一个新标签页,其中包含带有代码单元格的空白笔记本。

    2. 将以下代码复制到该单元格中,然后点击运行以执行。

      !gsutil cp gs://solutions-public-assets/bigquery-datalab/* .
      

      执行新笔记本

    3. 返回原始标签以查看其他文件。点击使用 BigQuery 和 Datalab.ipynb 分析财务时间序列,开始以交互方式完成教程。

      使用 BigQuery 和 Datalab.ipynb 分析财务时间序列

    4. 如果您不熟悉 Cloud Datalab 笔记本,请查看 docs / intro 子文件夹中的 Notebooks.ipynb 简介文档。

      Notebooks.ipynb 简介

    5. 完成笔记本中的剩余教程。