BigQuery JupyterLab プラグインを使用する
この機能に関するフィードバックやサポートのリクエストは、bigquery-ide-plugin@google.com 宛てにメールでお送りください。
このドキュメントでは、BigQuery JupyterLab プラグインをインストールして使用し、次のことを行う方法について説明します。
- BigQuery データを確認する。
- BigQuery DataFrames API を使用する。
- BigQuery DataFrames ノートブックを Cloud Composer にデプロイする。
BigQuery JupyterLab プラグインには、Dataproc Serverless ランタイム テンプレートの作成、ノートブックの起動と管理、Apache Spark を使用した開発、コードのデプロイ、リソースの管理など Dataproc JupyterLab プラグインのすべての機能が含まれています。
BigQuery JupyterLab プラグインをインストールする
BigQuery JupyterLab プラグインをインストールして使用する手順は次のとおりです。
ローカル ターミナルで、システムに Python 3.8 以降がインストールされていることを確認します。
python3 --version
ローカル ターミナルで、gcloud CLI を初期化します。
gcloud init
Python 仮想環境ツールである Pipenv をインストールします。
pip3 install pipenv
新しい仮想環境を作成します。
pipenv shell
新しい仮想環境に JupyterLab をインストールします。
pipenv install jupyterlab
BigQuery JupyterLab プラグインをインストールします。
pipenv install bigquery-jupyter-plugin
インストールされている JupyterLab のバージョンが 4.0.0 より前のバージョンである場合は、プラグイン拡張機能を有効にします。
jupyter server extension enable bigquery_jupyter_plugin
JupyterLab を起動します。
jupyter lab
ブラウザで JupyterLab が開きます。
プロジェクトとリージョンの設定を更新する
デフォルトでは、セッションは gcloud init
の実行時に設定したプロジェクトとリージョンで実行されます。セッションのプロジェクトとリージョンの設定を変更するには、次の操作を行います。
- JupyterLab メニューで、[設定] > [Google BigQuery の設定] をクリックします。
変更を有効にするには、プラグインを再起動する必要があります。
データを探索
JupyterLab で BigQuery データを操作する手順は次のとおりです。
- JupyterLab サイドバーで、[データセット エクスプローラ] ペインを開きます。 データセット アイコンをクリックします。
プロジェクトを展開するには、[データセット エクスプローラ] ペインで、プロジェクト名の横にある
展開矢印をクリックします。[データセット エクスプローラ] ペインには、セッション用に構成した BigQuery リージョンにあるプロジェクト内のデータセットがすべて表示されます。プロジェクトとデータセットはさまざまな方法で操作できます。
- データセットに関する情報を表示するには、データセットの名前をクリックします。
- データセット内のすべてのテーブルを表示するには、データセットの横にある 展開矢印をクリックします。
- テーブルに関する情報を表示するには、テーブルの名前をクリックします。
- プロジェクトまたは BigQuery のリージョンを変更するには、設定を更新します。
ノートブックを実行する
JupyterLab から BigQuery データにクエリを実行する手順は次のとおりです。
- ランチャー ページを開くには、[ファイル] > [新しいランチャー] をクリックします。
- [BigQuery ノートブック] セクションで、[BigQuery DataFrames] カードをクリックします。新しいノートブックが開き、BigQuery DataFrames の使用を開始する方法が表示されます。
BigQuery DataFrames ノートブックは、ローカル Python カーネルでの Python 開発をサポートしています。BigQuery DataFrames オペレーションは BigQuery でリモート実行されますが、残りのコードはマシンでローカル実行されます。BigQuery でオペレーションが実行されると、コードセルの下にクエリジョブ ID とジョブへのリンクが表示されます。
- Google Cloud コンソールでジョブを表示するには、[ジョブを開く] をクリックします。
BigQuery DataFrames ノートブックをデプロイする
Dataproc Serverless ランタイム テンプレートを使用して、BigQuery DataFrames ノートブックを Cloud Composer にデプロイできます。ランタイム バージョン 2.1 以降を使用する必要があります。
- JupyterLab ノートブックで、calendar_month [ジョブ スケジューラ] をクリックします。
- [ジョブ名] に、ジョブの一意の名前を入力します。
- [環境] に、ジョブをデプロイする Cloud Composer 環境の名前を入力します。
- ノートブックがパラメータ化されている場合は、パラメータを追加します。
- サーバーレス ランタイム テンプレートの名前を入力します。
- ノートブックの実行エラーを処理するには、[再試行回数] に整数を入力し、[再試行の遅延] に値(分単位)を入力します。
送信する実行通知を選択し、受信者を入力します。
通知は Airflow の SMTP 構成を使用して送信されます。
ノートブックのスケジュールを選択します。
[作成] をクリックします。
ノートブックのスケジュールが正常に設定されると、選択した Cloud Composer 環境のスケジュールされたジョブのリストに表示されます。
次のステップ
- BigQuery DataFrames クイックスタートを試す。
- BigQuery DataFrames Python API の詳細を確認する。
- Dataproc でサーバーレス バッチとノートブックのセッションに JupyterLab を使用する。