このページでは、Cloud Datalab の主なコンセプトとコンポーネントの詳細について説明します。Cloud Datalab datalab/docs/notebooks/intro
ノートブック ディレクトリには、概要の追加ドキュメントがあります。
Cloud Datalab とノートブック
Cloud Datalab はコンテナとしてパッケージ化され、VM(仮想マシン)インスタンスで実行されます。Cloud Datalab インスタンスのライフサイクルを管理するでは、VM の作成、その VM 内のコンテナの実行、ブラウザから Cloud Datalab コンテナへの接続の確立について説明します。この Cloud Datalab コンテナは、既存の Cloud Datalab ノートブックを開いて新しいノートブックを作成できます。/docs/intro
ディレクトリにある入門ノートブックを読み、ノートブックの構成と実行方法を理解します。
Cloud Datalab は、コードを含むテキスト ファイルの代わりにノートブックを使用します。ノートブックには、コード、マークダウンとして記述されたドキュメント、コード実行の結果(テキスト、画像、HTML / JavaScript のいずれか)がまとめられています。ノートブックは、コードエディタや IDE と同様に、コードを記述するのに役立ちます。たとえば、コードを対話的かつ反復的に実行したり、結果をコードと一緒に表示したりできます。さらに、チームメンバーとノートブックを共有する際に、コード、マークダウン形式のドキュメント、インタラクティブなチャートなどの結果を含めることで、Python または SQL コードファイルのみで提供できる内容以上のコンテキストを提供できます。
Cloud Datalab ノートブックは、git リポジトリである Google Cloud Source Repositories のリポジトリに保存できます。この git リポジトリは、VM に接続された永続ディスクにクローニングされます。このクローンは、ファイルの追加、削除、変更を行えるワークスペースを形成します。リポジトリの他のユーザーと作業を共有するには、git クライアントを使用して変更を commit し、このローカル ワークスペースからリポジトリに変更を push します。ノートブックは永続ディスクに定期的に自動保存されますが、いつでも好きなときに保存できます。永続ディスクを削除すると、明示的に git リポジトリに push されていないノートブックが失われることに注意してください。そのため、永続ディスクを削除しないことを強くおすすめします。
ノートブックを開くと、バックエンドの「カーネル」プロセスが起動され、セッション中に定義された変数を管理し、ノートブック コードを実行します。実行されたコードが BigQuery や Google Machine Learning Engine などの Google Cloud サービスにアクセスすると、VM 内で利用可能なサービス アカウントが使用されます。したがって、サービス アカウントには、データへのアクセスまたはサービスのリクエストが許可されている必要があります。クラウド プロジェクト名とサービス アカウント名を表示するには、ブラウザの Cloud Datalab ノートブックまたはノートブックの一覧ページの右上隅にある、ユーザー アイコン をクリックします(必要に応じて、ブラウザ ウィンドウのサイズを変更してください)。Cloud Datalab の実行に使用される VM は、関連するクラウド プロジェクトのすべてのメンバーがアクセスできる共有リソースです。したがって、データにアクセスする際に各ユーザーの個人用クラウド認証情報を使用することはおすすめしません。
ノートブックでコードを実行すると、コードを実行しているプロセスの状態が変化します。変数の割り当てや再割り当てを行うと、副作用としてその値が後続の計算に使用されます。実行中のノートブックは、それぞれが Cloud Datalab に 1 つのセッションとして表示されます。Cloud Datalab ノートブック一覧ページのセッション アイコン をクリックすると、セッションが一覧表示され、そこからセッションを停止できます。セッションが実行されている間、基礎となるプロセスはメモリリソースを消費します。セッションを停止すると、基礎となるプロセスとそのメモリ内の状態が破棄され、セッションで使用されていたメモリが解放されます。ノートブックに保存された結果は、ディスク上に永続的な形式で残ります。
Cloud Datalab の使用シナリオ
Cloud Datalab は、Google Cloud Platform 用に設計されたインタラクティブなデータ分析と機械学習の環境です。Cloud Datalab を使用して、データをインタラクティブに探索、分析、変換、可視化したり、データから機械学習モデルを構築したりできます。Cloud Datalab /docs
フォルダには、実行できるいくつかのタスクについて説明した複数のチュートリアルとサンプルがあります。Cloud Datalab には、データ分析、可視化、機械学習向けに一般的に使用される一連のオープンソースの Python ライブラリが用意されています。また、Google BigQuery、Google Machine Learning Engine、Google Dataflow、Google Cloud Storage など、主要な Google Cloud Platform サービスにアクセスするためのライブラリも追加されています。詳細については、付属のライブラリをご覧ください。
Python ライブラリについては、pydatalab
リファレンス ドキュメントをご覧ください。
開始にあたっては以下の情報を参考にしてください。
- いくつかの SQL クエリを作成し、BigQuery のデータを調べます。結果を Dataframe に配置し、ヒストグラムまたは折れ線グラフとして視覚化します。
- Google Cloud Storage の CSV ファイルからデータを読み込んで Dataframe に配置し、Python を使用して平均、標準偏差、変位値などの統計的尺度を計算します。
- TensorFlow または scikit-learn モデルを試し、結果を予測したり、データを分類したりします。
付属のライブラリ
Cloud Datalab ノートブックに含まれている、利用可能なライブラリの一覧を次に示します(ライブラリ リストとバージョン情報は変更される可能性があります)。
Conda でインストール:
crcmod at version 1.7 dask at version 0.17.1 dill at version 0.2.6 future at version 0.16.0 futures at version 3.2.0 google-api-python-client at version 1.6.2 httplib2 at version 0.10.3 h5py at version 2.7.1 ipykernel at version 4.8.2 ipywidgets at version 7.2.1 jinja2 at version 2.8 jsonschema at version 2.6.0 matplotlib at version 2.1.2 mock at version 2.0.0 nltk at version 3.2.1 numpy at version 1.14.0 oauth2client at version 2.2.0 pandas-gbq at version 0.3.0 pandas at version 0.22.0 pandocfilters at version 1.4.2 pillow at version 5.0.0 pip at version 18.1 plotly at version 1.12.5 psutil at version 4.3.0 pygments at version 2.1.3 python-dateutil at version 2.5.0 python-snappy at version 0.5.1 pytz at version 2018.4 pyzmq at version 17.1.0 requests at version 2.18.4 scikit-image at version 0.13.0 scikit-learn at version 0.19.1 scipy at version 1.0.0 seaborn at version 0.7.0 six at version 1.11.0 statsmodels at version 0.8.0 sympy at version 0.7.6.1 tornado at version 4.5.1 widgetsnbextension at version 3.2.1 xgboost at version 0.6a2
pip でインストール:
apache-airflow at version 1.9.0 apache-beam[gcp] at version 2.7.0 bs4 at version 0.0.1 ggplot at version 0.6.8 google-cloud-monitoring at version 0.28.0 lime at version 0.1.1.23 protobuf at version 3.5.2 tensorflow at version 1.8.0
future
、futures
、apache-beam\[gcp\]
のインストール対象は Python 2 カーネルに、notebook
のインストール対象は Python 3 カーネルに限定されます。