Dataproc の JupyterLab ノートブックでゲノム解析を実行する


このチュートリアルでは、Dataproc で構成できる DaskNVIDIA RAPIDS、GPU を使用してシングルセル ゲノミクス分析を実行する方法について説明します。スタンドアロン スケジューラまたはリソース管理用の YARN のいずれかを使用してDask を実行するよう Dataproc を構成できます。

このチュートリアルでは、ホストされた JupyterLab インスタンスを使用して Dataproc を構成し、シングルセル ゲノミクス分析を備えたノートブックを実行します。Dataproc で Jupyter Notebook を使用すると、Jupyter のインタラクティブな機能と Dataproc で可能になるワークロード スケーリングを組み合わせることができます。Dataproc では、1 台のマシンから多数のマシンにワークロードをスケールアウトできます。それらのマシンは必要なだけ多数の GPU で構成できます。

このチュートリアルは、データ サイエンティストと研究者を対象としています。Python の使用経験があり、次の基本的な知識があることを前提としています。

目標

  • Dataproc インスタンスを作成し、GPU、JupyterLab、オープンソース コンポーネントで構成します。
  • Dataproc でノートブックを実行します。

料金

このドキュメントでは、Google Cloud の次の課金対象のコンポーネントを使用します。

  • Dataproc
  • Cloud Storage
  • GPU
  • 料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。 新しい Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

    このドキュメントに記載されているタスクの完了後、作成したリソースを削除すると、それ以上の請求は発生しません。詳細については、クリーンアップをご覧ください。

    始める前に

    1. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

      プロジェクト セレクタに移動

    2. Google Cloud プロジェクトで課金が有効になっていることを確認します

    3. Dataproc API を有効にします。

      API を有効にする

    環境を準備する

    1. リソースのロケーションを選択します。

      REGION=REGION
      

    2. Cloud Storage バケットを作成する

      gsutil mb BUCKET -l REGION
      

    3. 次の初期化アクションをバケットにコピーします。

      SCRIPT_BUCKET=gs://goog-dataproc-initialization-actions-REGION
      gsutil cp ${SCRIPT_BUCKET}/gpu/install_gpu_driver.sh BUCKET/gpu/install_gpu_driver.sh
      gsutil cp ${SCRIPT_BUCKET}/dask/dask.sh BUCKET/dask/dask.sh
      gsutil cp ${SCRIPT_BUCKET}/rapids/rapids.sh BUCKET/rapids/rapids.sh
      gsutil cp ${SCRIPT_BUCKET}/python/pip-install.sh BUCKET/python/pip-install.sh
      

    JupyterLab とオープンソース コンポーネントを使用して Dataproc クラスタを作成する

    1. Dataproc クラスタを作成します。
    gcloud dataproc clusters create CLUSTER_NAME \
        --region REGION \
        --image-version 2.0-ubuntu18 \
        --master-machine-type n1-standard-32 \
        --master-accelerator type=nvidia-tesla-t4,count=4 \
        --initialization-actions
    BUCKET/gpu/install_gpu_driver.sh,BUCKET/dask/dask.sh,BUCKET/rapids/rapids.sh,BUCKET/python/pip-install.sh
    \
        --initialization-action-timeout=60m \
        --metadata
    gpu-driver-provider=NVIDIA,dask-runtime=yarn,rapids-runtime=DASK,rapids-version=21.06,PIP_PACKAGES="scanpy==1.8.1,wget" \
        --optional-components JUPYTER \
        --enable-component-gateway \
        --single-node
    

    クラスタには次のプロパティがあります。

    • --region: クラスタが配置されているリージョン
    • --image-version: クラスタ イメージのバージョンで、2.0-ubuntu18
    • --master-machine-type: メインのマシンタイプで、n1-standard-32
    • --master-accelerator: メインノード上の GPU のタイプと数で、4 つの nvidia-tesla-t4 GPU。
    • --initialization-actions: GPU ドライバ、Dask、RAPIDS、追加の依存関係をインストールするインストール スクリプトへの Cloud Storage パス。
    • --initialization-action-timeout: 初期化アクションのタイムアウト。
    • --metadata: NVIDIA GPU ドライバ、Dask のスタンドアロン スケジューラ、RAPIDS バージョン 21.06 を使用してクラスタを構成する初期化アクションに渡されます。
    • --optional-components: Jupyter のオプション コンポーネントを使用してクラスタを構成します。
    • --enable-component-gateway: クラスタのウェブ UI へのアクセスを許可します。
    • --single-node: クラスタを単一ノード(ワーカーなし)として構成します。

    Jupyter Notebook にアクセスする

    1. Dataproc Google Cloud コンソールで [クラスタ] ページを開きます。
      [クラスタ] ページを開く
    2. クラスタをクリックし、[ウェブ インターフェース] タブをクリックします。
    3. [JupyterLab] をクリックします。
    4. JupyterLab で新しいターミナルを開きます。
    5. clara-parabricks/rapids-single-cell-examples リポジトリのクローンを作成し、dataproc/multi-gpu ブランチをチェックアウトします。

      git clone https://github.com/clara-parabricks/rapids-single-cell-examples.git
      git checkout dataproc/multi-gpu
      

    6. JupyterLab で rapids-single-cell-examples/notebooks リポジトリに移動し、1M_brain_gpu_analysis_uvm.ipynb Jupyter ノートブックを開きます。

    7. ノートブックのすべての出力をクリアするには、[編集] > [すべての出力をクリア] を選択します。

    8. ノートブックのセルの手順を確認します。このノートブックでは、Dataproc で Dask と RAPIDS を使用して、データの処理と可視化を含む 100 万セルのシングルセル RNA-seq ワークフローについて説明します。詳細については、RAPIDS を使用した単一細胞ゲノム分析の高速化をご覧ください。

    クリーンアップ

    このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

    プロジェクトの削除

    1. Google Cloud コンソールで、[リソースの管理] ページに移動します。

      [リソースの管理] に移動

    2. プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
    3. ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

    リソースを個別に削除する

    1. Dataproc クラスタを削除します。
      gcloud dataproc clusters delete cluster-name \
          --region=region
      
    2. バケットを削除します。
      gcloud storage buckets delete BUCKET_NAME

    次のステップ