快速入门:使用 Cloud Life Sciences 处理基因组数据

使用 Cloud Life Sciences 处理基因组数据

本页面介绍了如何运行使用 Cloud Life Sciences API 从包含 DNA 序列的二进制文件(BAM 文件)创建索引文件(BAI 文件)的基因组流水线。

BAM 文件通常很大,需要使用基因组查看器进行读取。您可以使用 BAI 文件找到包含您感兴趣的基因组位置的 BAM 文件部分。

须知事项

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 启用 Cloud Life Sciences, Compute Engine, and Cloud Storage JSON API。

    启用 API

  5. 安装 Google Cloud CLI。
  6. 如需初始化 gcloud CLI,请运行以下命令:

    gcloud init
  7. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  8. 确保您的 Google Cloud 项目已启用结算功能

  9. 启用 Cloud Life Sciences, Compute Engine, and Cloud Storage JSON API。

    启用 API

  10. 安装 Google Cloud CLI。
  11. 如需初始化 gcloud CLI,请运行以下命令:

    gcloud init
  12. 或者,您也可以使用 Cloud Shell,该工具预安装有 gcloud CLI。

  13. 安装 Python 3.8

    如果您使用的是 Windows,并且在安装 Google Cloud CLI 时保留选中了相关复选框,则系统会自动完成此操作。

运行流水线

如需运行流水线,请完成以下步骤:

  1. 创建用于存储 BAI 文件的存储桶。存储桶是 Cloud Storage 中用于存放数据的基本容器。 如需创建名为 PROJECT_ID-life-sciences 的存储桶,请运行 gsutil mb 命令:

    gsutil mb gs://PROJECT_ID-life-sciences
    

    PROJECT_ID 替换为您的 Google Cloud 项目 ID。您必须使用全局唯一的存储桶名称。

    如果成功,该命令会返回以下内容:

    Creating gs://PROJECT_ID-life-sciences
    
  2. 如需启动流水线,请运行 gcloud beta lifesciences pipelines run 命令:

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

    如果成功,该命令会返回以下内容:

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    

    请记下您在下一步中使用的 OPERATION_ID

  3. 如需跟踪流水线的状态,请运行 gcloud beta lifesciences operations wait 命令。将 OPERATION_ID 替换成上一步骤中输出的值。流水线需要几分钟时间才能执行完毕。

    gcloud beta lifesciences operations wait OPERATION_ID
    

    操作完成后,将返回以下消息:

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  4. 如需验证 BAI 文件是否已生成,请运行 gsutil ls 命令:

    gsutil ls gs://PROJECT_ID-life-sciences
    

    如果成功,该命令会返回以下内容:

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

您已使用 Cloud Life Sciences API 运行流水线从 BAM 文件创建 BAI 文件。使用基因组查看器使用 NA12878.chr20.sample.bam.bai 索引文件检查 NA12878.chr20.sample.bam BGP 文件。

清理

为避免因本页中使用的资源导致您的 Google Cloud 帐号产生费用,请按照以下步骤操作。

删除 BAI 文件

要删除生成的 BAI 文件但保留创建的项目和存储桶,请运行 gsutil rm 命令:

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

删除存储桶

如果您专门为此快速入门创建了存储桶,但不再需要用到它,请使用 gsutil rb 命令删除该存储桶。删除存储桶也会删除生成的 BAI 文件。

gsutil rb gs://PROJECT_ID-life-sciences

删除项目

如果您专门为此快速入门创建了项目,但不再需要用到该项目,您可以将其删除。删除项目还会删除 BAI 文件和 Cloud Storage 存储桶。

  1. 在 Google Cloud 控制台中,进入管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

结果怎么样?

后续步骤