BigQuery JupyterLab プラグインを使用する

この機能に関するフィードバックやサポートのリクエストは、bigquery-ide-plugin@google.com 宛てにメールでお送りください。

このドキュメントでは、BigQuery JupyterLab プラグインをインストールして使用し、次のことを行う方法について説明します。

  • BigQuery データを確認する。
  • BigQuery DataFrames API を使用する。
  • BigQuery DataFrames ノートブックを Cloud Composer にデプロイする。

BigQuery JupyterLab プラグインには、Dataproc Serverless ランタイム テンプレートの作成、ノートブックの起動と管理、Apache Spark を使用した開発、コードのデプロイ、リソースの管理など Dataproc JupyterLab プラグインのすべての機能が含まれています。

BigQuery JupyterLab プラグインをインストールする

BigQuery JupyterLab プラグインをインストールして使用する手順は次のとおりです。

  1. ローカル ターミナルで、システムに Python 3.8 以降がインストールされていることを確認します。

    python3 --version
    
  2. gcloud CLI をインストールします

  3. ローカル ターミナルで、gcloud CLI を初期化します。

    gcloud init
    
  4. Python 仮想環境ツールである Pipenv をインストールします。

    pip3 install pipenv
    
  5. 新しい仮想環境を作成します。

    pipenv shell
    
  6. 新しい仮想環境に JupyterLab をインストールします。

    pipenv install jupyterlab
    
  7. BigQuery JupyterLab プラグインをインストールします。

    pipenv install bigquery-jupyter-plugin
    
  8. インストールされている JupyterLab のバージョンが 4.0.0 より前のバージョンである場合は、プラグイン拡張機能を有効にします。

    jupyter server extension enable bigquery_jupyter_plugin
    
  9. JupyterLab を起動します。

    jupyter lab
    

    ブラウザで JupyterLab が開きます。

プロジェクトとリージョンの設定を更新する

デフォルトでは、セッションは gcloud init の実行時に設定したプロジェクトとリージョンで実行されます。セッションのプロジェクトとリージョンの設定を変更するには、次の操作を行います。

  • JupyterLab メニューで、[設定] > [Google BigQuery の設定] をクリックします。

変更を有効にするには、プラグインを再起動する必要があります。

データを探索

JupyterLab で BigQuery データを操作する手順は次のとおりです。

  1. JupyterLab サイドバーで、[データセット エクスプローラ] ペインを開きます。データセット エクスプローラのアイコン。 データセット アイコンをクリックします。
  2. プロジェクトを展開するには、[データセット エクスプローラ] ペインで、プロジェクト名の横にある 展開矢印をクリックします。

    [データセット エクスプローラ] ペインに、展開されたプロジェクトとデータセットのリストが表示されます。

    [データセット エクスプローラ] ペインには、セッション用に構成した BigQuery リージョンにあるプロジェクト内のデータセットがすべて表示されます。プロジェクトとデータセットはさまざまな方法で操作できます。

    • データセットに関する情報を表示するには、データセットの名前をクリックします。
    • データセット内のすべてのテーブルを表示するには、データセットの横にある 展開矢印をクリックします。
    • テーブルに関する情報を表示するには、テーブルの名前をクリックします。
    • プロジェクトまたは BigQuery のリージョンを変更するには、設定を更新します。

ノートブックを実行する

JupyterLab から BigQuery データにクエリを実行する手順は次のとおりです。

  1. ランチャー ページを開くには、[ファイル] > [新しいランチャー] をクリックします。
  2. [BigQuery ノートブック] セクションで、[BigQuery DataFrames] カードをクリックします。新しいノートブックが開き、BigQuery DataFrames の使用を開始する方法が表示されます。

BigQuery DataFrames ノートブックは、ローカル Python カーネルでの Python 開発をサポートしています。BigQuery DataFrames オペレーションは BigQuery でリモート実行されますが、残りのコードはマシンでローカル実行されます。BigQuery でオペレーションが実行されると、コードセルの下にクエリジョブ ID とジョブへのリンクが表示されます。

  • Google Cloud コンソールでジョブを表示するには、[ジョブを開く] をクリックします。

BigQuery DataFrames ノートブックをデプロイする

Dataproc Serverless ランタイム テンプレートを使用して、BigQuery DataFrames ノートブックを Cloud Composer にデプロイできます。ランタイム バージョン 2.1 以降を使用する必要があります。

  1. JupyterLab ノートブックで、calendar_month [ジョブ スケジューラ] をクリックします。
  2. [ジョブ名] に、ジョブの一意の名前を入力します。
  3. [環境] に、ジョブをデプロイする Cloud Composer 環境の名前を入力します。
  4. ノートブックがパラメータ化されている場合は、パラメータを追加します。
  5. サーバーレス ランタイム テンプレートの名前を入力します。
  6. ノートブックの実行エラーを処理するには、[再試行回数] に整数を入力し、[再試行の遅延] に値(分単位)を入力します。
  7. 送信する実行通知を選択し、受信者を入力します。

    通知は Airflow の SMTP 構成を使用して送信されます。

  8. ノートブックのスケジュールを選択します。

  9. [作成] をクリックします。

ノートブックのスケジュールが正常に設定されると、選択した Cloud Composer 環境のスケジュールされたジョブのリストに表示されます。

次のステップ