クイックスタート: Cloud Life Sciences を使用してゲノムデータを処理する

このページでは、Cloud Life Sciences API を使用するゲノミクス パイプラインを実行して、DNA 配列を含むバイナリ ファイル(BAM ファイル)からインデックス ファイル(BAI ファイル)を作成する方法を説明します。

通常、BAM ファイルはサイズが大きいため、ゲノムビューアを使用した読み取りには時間がかかることがあります。BAI ファイルを使用して、目的のゲノム位置を含む BAM ファイルの部分を見つけます。

始める前に

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Google Cloud プロジェクトで課金が有効になっていることを確認します

  4. Cloud Life Sciences, Compute Engine, and Cloud Storage JSON API を有効にします。

    API を有効にする

  5. Google Cloud CLI をインストールします。
  6. gcloud CLI を初期化するには:

    gcloud init
  7. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  8. Google Cloud プロジェクトで課金が有効になっていることを確認します

  9. Cloud Life Sciences, Compute Engine, and Cloud Storage JSON API を有効にします。

    API を有効にする

  10. Google Cloud CLI をインストールします。
  11. gcloud CLI を初期化するには:

    gcloud init
  12. または、gcloud CLI がすでにインストールされている Cloud Shell を使用することもできます。

  13. Python 3.8 をインストールします

    Windows では、Google Cloud CLI をインストールする際にこの操作に関連するチェックボックスをオンのままにしていれば、インストールは自動的に行われています。

パイプラインを実行する

パイプラインを実行するには、次の手順を実行します。

  1. BAI ファイルを保存するためのバケットを作成します。バケットは、Cloud Storage でデータを格納する基本的なコンテナです。 PROJECT_ID-life-sciences という名前のバケットを作成するには、gsutil mb コマンドを実行します。

    gsutil mb gs://PROJECT_ID-life-sciences
    

    PROJECT_ID を Google Cloud プロジェクト ID に置き換えます。グローバルに一意のバケット名を使用する必要があります。

    成功した場合、コマンドは以下を返します。

    Creating gs://PROJECT_ID-life-sciences
    
  2. パイプラインを開始するには、gcloud beta lifesciences pipelines run コマンドを実行します。

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

    成功した場合、コマンドは以下を返します。

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    

    次のステップで使用する OPERATION_ID をメモします。

  3. パイプラインのステータスを追跡するには、gcloud beta lifesciences operations wait コマンドを実行します。OPERATION_ID を前のステップで出力された値に置き換えます。パイプラインが完了するまで数分かかります。

    gcloud beta lifesciences operations wait OPERATION_ID
    

    操作が完了すると、次のメッセージが返されます。

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  4. BAI ファイルが生成されたことを確認するには、gsutil ls コマンドを実行します。

    gsutil ls gs://PROJECT_ID-life-sciences
    

    成功した場合、コマンドは以下を返します。

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

これで、Cloud Life Sciences API を使用してパイプラインを実行し、BAM ファイルから BAI ファイルを作成しました。ゲノムビューアを使用して、NA12878.chr20.sample.bam.bai インデックス ファイルを使用する NA12878.chr20.sample.bam BAM ファイルを調べます。

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

BAI ファイルの削除

作成したプロジェクトとバケットを保持しつつ、生成された BAI ファイルを削除するには gsutil rm コマンドを実行します。

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

バケットの削除

このクイックスタートのために作成したバケットが不要になった場合に、プロジェクトを保持しつつバケットを削除するには、gsutil rb コマンドを使用してバケットを削除します。バケットを削除すると、生成された BAI ファイルも削除されます。

gsutil rb gs://PROJECT_ID-life-sciences

プロジェクトの削除

このクイックスタートのために作成したプロジェクトは、不要になれば削除できます。プロジェクトを削除すると、BAI ファイルと Cloud Storage バケットも削除されます。

  1. Google Cloud コンソールで、[リソースの管理] ページに移動します。

    [リソースの管理] に移動

  2. プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
  3. ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

いかがでしたか

次のステップ