Armazenar arquivos VCF brutos no Cloud Storage

Nesta página, descrevemos como copiar e armazenar arquivos VCF brutos no Cloud Storage. Depois de armazenar arquivos VCF brutos, use a ferramenta Variant Transforms para carregá-los no BigQuery.

Copiar dados para o Cloud Storage

O Cloud Life Sciences hospeda um conjunto de dados público contendo dados do Illumina Platinum Genomes. Para copiar dois arquivos VCF do conjunto de dados para o bucket, use o comando gsutil cp:

gsutil cp \
    gs://genomics-public-data/platinum-genomes/vcf/NA1287*_S1.genome.vcf \
    gs://BUCKET/platinum-genomes/vcf/

Substitua BUCKET pelo nome do bucket do Cloud Storage.

Como copiar variantes de um sistema de arquivos local

Para copiar um grupo de arquivos locais no diretório atual, execute o comando gsutil cp:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp *.vcf \
    gs://BUCKET/vcf/

Substitua BUCKET pelo nome do bucket do Cloud Storage.

Para copiar um diretório local de arquivos, execute o seguinte comando:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

Substitua:

  • VCF_FILE_DIRECTORY: o caminho para o diretório local que contém arquivos VCF
  • BUCKET: o nome do bucket do Cloud Storage

Se ocorrerem falhas devido a problemas temporários de rede, execute novamente os comandos anteriores usando a sinalização no-clobber (-n), que copia apenas os arquivos ausentes:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -n -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

Substitua:

  • VCF_FILE_DIRECTORY: o caminho para o diretório local que contém arquivos VCF
  • BUCKET: o nome do bucket do Cloud Storage

Para mais informações sobre como copiar dados para o Cloud Storage, consulte Como usar o Cloud Storage com Big Data.