Cloud Life Sciences は非推奨となり、2025 年 7 月 8 日以降は Google Cloud で使用できなくなります。Cloud Life Sciences のユースケースが Batch でサポートされるようになりました。ワークロードの移行方法については、Batch に移行するをご覧ください。

クイックスタート: Cloud Life Sciences を使用してゲノムデータを処理する

このページでは、Cloud Life Sciences API を使用するゲノミクスパイプラインを実行して、DNA 配列を含むバイナリファイル（BAM ファイル）からインデックスファイル（BAI ファイル）を作成する方法を説明します。

通常、BAM ファイルはサイズが大きいため、ゲノムビューアを使用した読み取りには時間がかかることがあります。BAI ファイルを使用して、目的のゲノム位置を含む BAM ファイルの部分を見つけます。

始める前に

Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。

Google Cloud Console の [プロジェクトセレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

プロジェクトセレクタに移動

Google Cloud プロジェクトで課金が有効になっていることを確認します。

Cloud Life Sciences, Compute Engine, and Cloud Storage JSON API を有効にします。

API を有効にする

Google Cloud CLI をインストールします。

gcloud CLI を初期化するには:

gcloud init

Google Cloud Console の [プロジェクトセレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

プロジェクトセレクタに移動

Google Cloud プロジェクトで課金が有効になっていることを確認します。

Cloud Life Sciences, Compute Engine, and Cloud Storage JSON API を有効にします。

API を有効にする

Google Cloud CLI をインストールします。

gcloud CLI を初期化するには:

gcloud init

または、gcloud CLI がすでにインストールされている Cloud Shell を使用することもできます。

Python 3.8 をインストールします。
Windows では、Google Cloud CLI をインストールする際にこの操作に関連するチェックボックスをオンのままにしていれば、インストールは自動的に行われています。

パイプラインを実行する

パイプラインを実行するには、次の手順を実行します。

BAI ファイルを保存するためのバケットを作成します。バケットは、Cloud Storage でデータを格納する基本的なコンテナです。 PROJECT_ID-life-sciences という名前のバケットを作成するには、gsutil mb コマンドを実行します。
```
gsutil mb gs://PROJECT_ID-life-sciences
```
PROJECT_ID を Google Cloud プロジェクト ID に置き換えます。グローバルに一意のバケット名を使用する必要があります。
バケットの命名要件をご覧ください。
- バケット名に使用できるのは、小文字、数字、ダッシュ（-）、アンダースコア（_）のみです。スペースは使用できません。
- バケット名の先頭と末尾は、数字または文字にする必要があります。
- バケット名の長さは 3～63 文字でなければなりません。ドットを使用している名前には最大 222 文字を使用できますが、ドットで区切られている各要素は 63 文字以下とします。
- バケット名はドット区切りの十進表記の IP アドレス（例: 192.168.5.4）として表すことはできません。
- バケット名の先頭に接頭辞「goog」は使用できません。
- バケット名に「google」や「google」と類似する表記（「g00gle」など）を含めることはできません。
注意: バケットの名前空間はグローバルであり一般公開されるため、バケット名に機密情報を含めないでください。

成功した場合、コマンドは以下を返します。
```
Creating gs://PROJECT_ID-life-sciences
```

パイプラインを開始するには、gcloud beta lifesciences pipelines run コマンドを実行します。

gcloud beta lifesciences pipelines run \
    --regions us-east1 \
    --command-line 'samtools index ${BAM} ${BAI}' \
    --docker-image "gcr.io/cloud-lifesciences/samtools" \
    --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
    --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

成功した場合、コマンドは以下を返します。

Running [projects/PROJECT_ID/operations/OPERATION_ID]

次のステップで使用する OPERATION_ID をメモします。

パイプラインのステータスを追跡するには、gcloud beta lifesciences operations wait コマンドを実行します。OPERATION_ID を前のステップで出力された値に置き換えます。パイプラインが完了するまで数分かかります。
```
gcloud beta lifesciences operations wait OPERATION_ID
```
操作が完了すると、次のメッセージが返されます。
```
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
```
BAI ファイルが生成されたことを確認するには、gsutil ls コマンドを実行します。
```
gsutil ls gs://PROJECT_ID-life-sciences
```
成功した場合、コマンドは以下を返します。
```
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
```

これで、Cloud Life Sciences API を使用してパイプラインを実行し、BAM ファイルから BAI ファイルを作成しました。ゲノムビューアを使用して、NA12878.chr20.sample.bam.bai インデックスファイルを使用する NA12878.chr20.sample.bam BAM ファイルを調べます。

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

BAI ファイルの削除

作成したプロジェクトとバケットを保持しつつ、生成された BAI ファイルを削除するには gsutil rm コマンドを実行します。

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

バケットの削除

このクイックスタートのために作成したバケットが不要になった場合に、プロジェクトを保持しつつバケットを削除するには、gsutil rb コマンドを使用してバケットを削除します。バケットを削除すると、生成された BAI ファイルも削除されます。

gsutil rb gs://PROJECT_ID-life-sciences

プロジェクトの削除

このクイックスタートのために作成したプロジェクトは、不要になれば削除できます。プロジェクトを削除すると、BAI ファイルと Cloud Storage バケットも削除されます。

注意

プロジェクト内のすべてのものが削除されます。このドキュメントのタスクで既存のプロジェクトを使用した場合、それを削除すると、そのプロジェクトで行った他の作業もすべて削除されます。
カスタムプロジェクト ID が失われます。このプロジェクトを作成したときに、将来使用するカスタムプロジェクト ID を作成した可能性があります。そのプロジェクト ID を使用した URL（たとえば、appspot.com）を保持するには、プロジェクト全体ではなくプロジェクト内の選択したリソースだけを削除します。

複数のアーキテクチャ、チュートリアル、クイックスタートを実施する予定がある場合は、プロジェクトを再利用すると、プロジェクトの割り当て上限を超えないようにすることができます。

Google Cloud コンソールで、[リソースの管理] ページに移動します。
[リソースの管理] に移動
プロジェクトリストで、削除するプロジェクトを選択し、[削除] をクリックします。
ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

いかがでしたか

次のステップ

詳細については、Cloud Life Sciences API の公開データセットをご覧ください。
バリアントデータを Cloud Storage または BigQuery に読み込む方法を学習する。
BigQuery でバリアントを分析する方法を学習する。