dsub es una herramienta de línea de comandos que puedes usar para ejecutar tareas informáticas por lotes y flujos de trabajo en Google Cloud.
Objetivos
Después de completar el instructivo, sabrás cómo realizar la siguiente actividad:
- Ejecutar una canalización de dsub en Google Cloud que crea un índice (archivo BAI) a partir de un gran archivo binario de secuencias de ADN (archivo BAM)
Costos
En este instructivo, se usan los siguientes componentes facturables de Google Cloud:
- Compute Engine
- Cloud Storage
Usa la calculadora de precios para generar una estimación de los costos según el uso previsto. Los usuarios nuevos de Cloud Platform pueden cumplir los requisitos para una prueba gratuita.
Antes de comenzar
- Instala Python 3.6 o superior. Para obtener más información sobre cómo configurar tu entorno de desarrollo de Python, incluida la instalación de pip en tu sistema, consulta la Guía de configuración del entorno de desarrollo de Python.
- Accede a tu Cuenta de Google.
Si todavía no tienes una cuenta, regístrate para obtener una nueva.
-
En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.
- Habilita las API de Cloud Life Sciences, Compute Engine, and Cloud Storage.
Crea un archivo BAI
Completa los siguientes pasos para crear un índice (archivo BAI) a partir de un archivo binario grande de secuencias de ADN (archivo BAM). Los datos provienen del proyecto 1,000 Genomes.
Clona el repositorio de GitHub databiosphere/dsub y, luego, pasa al directorio para usar la herramienta de dsub. El repositorio contiene una imagen de Docker prediseñada que utiliza samtools para realizar la indexación.
git clone https://github.com/databiosphere/dsub.git cd dsub
Instala dsub y sus dependencias:
python setup.py install
Ejecuta la herramienta dsub a fin de crear el archivo BAI. Para ello, reemplaza PROJECT_ID con tu proyecto de Google Cloud y BUCKET con un depósito de Cloud Storage al que tengas acceso de escritura:
dsub \ --provider google-cls-v2 \ --project PROJECT_ID \ --logging gs://BUCKET/logs \ --input BAM=gs://genomics-public-data/1000-genomes/bam/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam \ --output BAI=gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai \ --image quay.io/cancercollaboratory/dockstore-tool-samtools-index \ --command 'samtools index ${BAM} ${BAI}' \ --wait
El comando samtools se ejecuta en el archivo de datos proporcionado con la marca
--input
. La canalización escribe el archivo de salida y los registros en tu bucket de Cloud Storage.Verifica que se haya generado el archivo BAI:
gsutil ls BUCKET
El comando debería mostrar lo siguiente:
gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai
Limpieza
Una vez que hayas terminado el instructivo, puedes limpiar los recursos que creaste en Google Cloud para que no se te facturen en el futuro. En las siguientes secciones, se describe cómo borrarlos o desactivarlos.
Cómo borrar el proyecto
La manera más fácil de eliminar la facturación es borrar el proyecto que utilizaste para el instructivo.
Para borrar el proyecto, haz lo siguiente:
- En Cloud Console, ve a la página Proyectos.
- En la lista de proyectos, selecciona el que quieres borrar y haz clic en Borrar proyecto (Delete project.
- En el cuadro de diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
¿Qué sigue?
Lee la documentación sobre dsub en GitHub para obtener más detalles y ejemplos sobre cómo desarrollar con dsub de forma local, o usa dsub para escalar verticalmente a muchas tareas en Google Cloud.