Usa dsub para escribir secuencias de comandos y, luego, ejecutar tareas y flujos de trabajo de computación por lotes en Google Cloud.
Objetivos
Después de completar este instructivo, sabrás cómo ejecutar una canalización de dsub en Google Cloud que crea un índice (archivo BAI) a partir de un gran archivo binario de secuencias de ADN (archivo BAM).
Costos
En este documento, usarás los siguientes componentes facturables de Google Cloud:
- Compute Engine
- Cloud Storage
Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios.
Antes de comenzar
- Instala Python 3.6 o superior. Para obtener más información sobre cómo configurar tu entorno de desarrollo de Python, incluida la instalación de pip en tu sistema, consulta la Guía de configuración del entorno de desarrollo de Python.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage APIs.
Crea un archivo BAI
Completa los siguientes pasos para crear un índice (archivo BAI) a partir de un archivo binario grande de secuencias de ADN (archivo BAM). Los datos provienen del proyecto 1,000 Genomes.
Clona el repositorio de GitHub databiosphere/dsub:
git clone https://github.com/databiosphere/dsub.git
Cambia al directorio de la herramienta dsub. El repositorio contiene una imagen de Docker prediseñada que utiliza samtools para realizar la indexación.
cd dsub
Instala dsub y sus dependencias:
sudo python3 setup.py install
Ejecuta la herramienta dsub a fin de crear el archivo BAI. Para ello, reemplaza PROJECT_ID con tu proyecto de Google Cloud y BUCKET con un depósito de Cloud Storage al que tengas acceso de escritura:
dsub \ --provider google-cls-v2 \ --project PROJECT_ID \ --logging gs://BUCKET/logs \ --input BAM=gs://genomics-public-data/1000-genomes/bam/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam \ --output BAI=gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai \ --image quay.io/cancercollaboratory/dockstore-tool-samtools-index \ --command 'samtools index ${BAM} ${BAI}' \ --wait
El comando samtools se ejecuta en el archivo de datos proporcionado con la marca
--input
. La canalización escribe el archivo de salida y los registros en tu bucket de Cloud Storage.Verifica que se haya generado el archivo BAI:
gcloud storage ls gs://BUCKET
El comando muestra la siguiente respuesta:
gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai
Limpia
Una vez que completes el instructivo, puedes limpiar los recursos que creaste para que dejen de usar la cuota y generar cargos. En las siguientes secciones, se describe cómo borrar o desactivar estos recursos.
Borra el proyecto
La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.
Para borrar el proyecto, sigue estos pasos:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
¿Qué sigue?
Lee la documentación sobre dsub en GitHub para obtener más detalles y ejemplos sobre cómo desarrollar con dsub de forma local, o usa dsub para escalar verticalmente a muchas tareas en Google Cloud.