在 Cloud Storage 中存储原始 VCF 文件

本页面介绍如何在 Cloud Storage 中复制和存储原始 VCF 文件。存储原始 VCF 文件后,您可以使用 Variant Transforms 工具将它们加载到 BigQuery 中。

将数据复制到 Cloud Storage 中

Cloud Life Sciences 托管包含 Illumina Platinum Genomes 数据的公开数据集。 要将该数据集内的两个 VCF 文件复制到您的存储分区中,请使用以下命令:

gsutil cp \
    gs://genomics-public-data/platinum-genomes/vcf/NA1287*_S1.genome.vcf \
    gs://BUCKET/platinum-genomes/vcf/

从本地文件系统复制变体

要复制一组本地文件,请使用以下命令:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp *.vcf \
    gs://BUCKET/vcf/

要复制文件的本地目录,请使用以下命令:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

如果由于临时网络问题而发生任何故障,您可以使用 no-clobber (-n) 标志重新运行之前的命令,该标志仅复制丢失的文件:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -n -R \
    VCF_FILE_DIRECTORY \
    gs://BUCKET/vcf/

如需详细了解如何将数据复制到 Cloud Storage 中,请参阅将 Cloud Storage 与大数据搭配使用

后续步骤

使用 Variant Transforms 工具将 VCF 文件加载到 BigQuery 中。