BigQuery と Cloud Datalab を使用した財務時系列分析

このソリューションでは、計量分析ツールとしての BigQueryCloud Datalab の能力と有用性を紹介しています。このドキュメントは、このソリューションの導入部であり、ノートブックベースの Cloud Datalab チュートリアルを開始する準備を行います。

計量アナリストは、さまざまなツールや手法を使用して市場取引履歴などのビッグデータを掘り起こし、市場動向を見抜くための情報を得ます。見積もりや取引は予測可能な間隔で行われるため、このようなデータは、頻度分析や移動平均などの確立された手法を使用して分析できる財務時系列を表します。

しかし巨大なデータセットを扱うことは容易ではない場合があります。従来型のツールは、成長し続けるデータセットに合わせてスケーリングできません。ストレージ要件もデータセットと同じ速度で増加するため、パソコンのハードディスクにデータをダウンロードすることは、もはや有効なアプローチではありません。さらに、従来のデータベース クエリによって適切なデータのサブセットを取得するのには長時間かかる場合があります。

BigQuery はこれらの問題を解決するため、SQL クエリの実行機能をアナリストに提供します。クエリの結果は、Google のインフラストラクチャの処理能力を活用して迅速に取得できます。BigQuery はウェブ上で使用できるほか、コマンドラインや API を通じて使用することもできます。BigQuery を Google Cloud Platform(GCP)の他のコンポーネントやサードパーティ製ツールと組み合わせれば、今必要な分析アプリケーションを構築できるだけでなく、そのアプリケーションを将来のデータの増大に合わせてスケーリングすることもできます。

このソリューションでは、強力なデータ分析パターンを使用します。つまり、BigQuery で負荷の高い SQL 検索を処理し、Cloud Datalab で Python による詳細なデータ操作と可視化を行います。

財務データを扱う場合、セキュリティは常に重要です。GCP はさまざまな方法でデータの安全性、セキュリティ、プライバシーを保持し、すべてのデータが送信中および保存時に暗号化されます。GCP は ISO 27001、ISO 27017、ISO 27018、SOC3、FINRA、PCI にも準拠しています

目標

  • データセットを BigQuery にロードします。
  • BigQuery と Cloud Datalab を使用して、財務時系列データへのクエリを実行します。
  • Cloud Datalab でクエリ結果を可視化します。

料金

このチュートリアルでは、以下の課金対象の Google Cloud Platform コンポーネントを使用します。

  • Cloud Datalab: GCP で Cloud Datalab を実行するために必要なリソースは課金対象です。これらのリソースには、1 つの Compute Engine 仮想マシン、2 つの永続ディスク、Cloud Storage バックアップ用のスペースが含まれます。詳細については、Cloud Datalab の料金ページをご覧ください。
  • BigQuery: このチュートリアルでは、100 MB 近くのデータを BigQuery に保存し、クエリ 1 回あたり 300 MB 未満のデータを処理します。このデータ量は、BigQuery の毎月の無料制限枠に収まります。BigQuery の費用の詳細については、BigQuery の料金ページをご覧ください。

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを出すことができます。 GCP を初めてご利用の場合は、無料トライアルをご利用いただけます。

始める前に

チュートリアルを開始する前に、Cloud Datalab をセットアップする必要があります。

Cloud Shell を使用する

Cloud Shell から開始

Cloud SDK を使用する

SDK がインストールされている場合:

Cloud SDK から開始

SDK がインストールされていない場合でも、SDK を使用して Cloud Datalab をセットアップする場合:

  • Cloud SDK をインストールして初期化します。
  • ノートブックでのチュートリアルの実施

    1. Cloud Datalab のホームページで、左上の add_box [Notebook] をクリックして新しいノートブックを追加します。

      新しいノートブックを追加する

      コードセルを含む空のノートブックがブラウザの新しいタブで開きます。

    2. そのセルに次のコードをコピーし、[Run] をクリックして実行します。

      !gsutil cp gs://solutions-public-assets/bigquery-datalab/* .
      

      新しいノートブックを実行する

    3. 最初のタブに戻り、追加されたファイルを確認します。[Analyzing Financial Time Series using BigQuery and Datalab.ipynb] をクリックして、インタラクティブなチュートリアルを開始します。

      Analyzing Financial Time Series using BigQuery and Datalab.ipynb

    4. Cloud Datalab ノートブックに慣れていない場合、docs / intro サブフォルダにある Introduction to Notebooks.ipynb ドキュメントをご覧ください。

      Introduction to Notebooks.ipynb

    5. ノートブックでチュートリアルの残りの部分に従います。