Almacena archivos VCF sin procesar en Cloud Storage

En esta página, se describe cómo copiar y almacenar archivos VCF sin procesar en Cloud Storage. Después de almacenar archivos VCF sin procesar, puedes usar la herramienta Variant Transforms para cargarlos en BigQuery.

Copia los datos en Cloud Storage

Cloud Life Sciences aloja un conjunto de datos públicos que contiene datos de Illumina Platinum Genomes. Para copiar dos archivos VCF del conjunto de datos a tu bucket, usa el comando gsutil cp:

gsutil cp \
    gs://genomics-public-data/platinum-genomes/vcf/NA1287*_S1.genome.vcf \
    gs://BUCKET/platinum-genomes/vcf/

Reemplaza BUCKET por el nombre del bucket de Cloud Storage.

Copia variantes desde un sistema de archivos local

Para copiar un grupo de archivos locales en tu directorio actual, ejecuta el comando gsutil cp:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp *.vcf \
    gs://BUCKET/vcf/

Reemplaza BUCKET por el nombre del bucket de Cloud Storage.

Para copiar un directorio de archivos local, ejecuta el siguiente comando:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

Reemplaza lo siguiente:

  • VCF_FILE_DIRECTORY: La ruta de acceso al directorio local que contiene archivos VCF
  • BUCKET: Es el nombre de tu bucket de Cloud Storage.

Si se produce algún error debido a problemas temporales de red, puedes volver a ejecutar los comandos anteriores con la marca no-clobber (-n), que copia solamente los archivos faltantes:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -n -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

Reemplaza lo siguiente:

  • VCF_FILE_DIRECTORY: La ruta de acceso al directorio local que contiene archivos VCF
  • BUCKET: Es el nombre de tu bucket de Cloud Storage.

Para obtener más información sobre cómo copiar datos en Cloud Storage, consulta Usa Cloud Storage con macrodatos.