Archivia i file VCF non elaborati in Cloud Storage

Questa pagina descrive come copiare e archiviare i file VCF non elaborati in Cloud Storage. Dopo aver archiviato i file VCF non elaborati, puoi utilizzare lo strumento Trasformazioni delle varianti per caricarli in BigQuery.

Copiare i dati in Cloud Storage

Cloud Life Sciences ospita un set di dati pubblico contenente dati dei genomi del platino di Illuminazione. Per copiare due file VCF dal set di dati nel bucket, utilizza il comando gsutil cp:

gsutil cp \
    gs://genomics-public-data/platinum-genomes/vcf/NA1287*_S1.genome.vcf \
    gs://BUCKET/platinum-genomes/vcf/

Sostituisci BUCKET con il nome del tuo bucket Cloud Storage.

Copiare varianti da un file system locale

Per copiare un gruppo di file locali nella tua directory attuale, esegui il comando gsutil cp:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp *.vcf \
    gs://BUCKET/vcf/

Sostituisci BUCKET con il nome del tuo bucket Cloud Storage.

Per copiare una directory locale dei file, esegui questo comando:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

Sostituisci quanto segue:

  • VCF_FILE_DIRECTORY: il percorso della directory locale contenente i file VCF
  • BUCKET: il nome del tuo bucket Cloud Storage

Se si verificano errori a causa di problemi di rete temporanei, puoi eseguire nuovamente i comandi precedenti utilizzando il flag no-clobber (-n), che copia solo i file mancanti:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -n -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

Sostituisci quanto segue:

  • VCF_FILE_DIRECTORY: il percorso della directory locale contenente i file VCF
  • BUCKET: il nome del tuo bucket Cloud Storage

Per ulteriori informazioni sulla copia dei dati in Cloud Storage, consulta Utilizzo di Cloud Storage con big data.