Ejecuta dsub

dsub es una herramienta de línea de comandos y una alternativa de código abierto a la herramienta de línea de comandos de gcloud de la API de Cloud Life Sciences.

Objetivos

Después de completar el instructivo, sabrás cómo realizar la siguiente actividad:

  • Ejecutar una canalización de dsub en Google Cloud Platform que crea un índice (archivo BAI) a partir de un archivo binario grande de secuencias de ADN (archivo BAM).

Costos

En este instructivo se usan componentes facturables en GCP, que incluyen los que se indican a continuación:

  • Compute Engine
  • Cloud Storage

Usa la calculadora de precios para generar una estimación de los costos según el uso previsto. Los usuarios nuevos de Cloud Platform podrían ser aptos para una prueba gratuita.

Antes de comenzar

  1. Instala Python 2.7 y versiones posteriores. Para obtener más información sobre cómo configurar el entorno de desarrollo de Python como, por ejemplo, la instalación de pip en tu sistema, consulta la Guía de configuración del entorno de desarrollo de Python.
  2. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  3. En GCP Console, en la página de selección de proyecto, selecciona o crea un proyecto de GCP.

    Ir a la página de selección de proyecto

  4. Asegúrate de tener habilitada la facturación para tu proyecto de Google Cloud Platform. Obtén información sobre cómo confirmar que tienes habilitada la facturación para tu proyecto.

  5. Habilita lasCloud Life Sciences, Compute Engine, and Cloud StorageAPIAPI.

    Habilita lasAPI

Crea un archivo BAI

Completa los siguientes pasos para crear un índice (archivo BAI) a partir de un archivo binario grande de secuencias de ADN (archivo BAM). Los datos provienen del proyecto 1,000 Genomes.

  1. Clona el repositorio de GitHub googlegenomics/dsub y, luego, pasa al directorio para usar la herramienta dsub. El repositorio contiene una imagen de Docker prediseñada que utiliza samtools para realizar la indexación.

    git clone https://github.com/googlegenomics/dsub.git
    cd dsub
    
  2. Instala dsub y sus dependencias:

    python setup.py install
    
  3. Ejecuta la herramienta dsub para crear el archivo BAI. Para ello, reemplaza el PROJECT_ID con el de tu proyecto de GCP y el BUCKET con un depósito de Cloud Storage del cual tengas acceso de escritura:

    dsub \
        --project PROJECT_ID \
        --zones "us-*" \
        --logging gs://BUCKET/logs \
        --input BAM=gs://genomics-public-data/1000-genomes/bam/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam \
        --output BAI=gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai \
        --image quay.io/cancercollaboratory/dockstore-tool-samtools-index \
        --command 'samtools index ${BAM} ${BAI}' \
        --wait
    

    El comando de samtool se ejecuta en el archivo de datos proporcionado con la marca --input. La canalización escribe el archivo de salida y los registros en tu depósito de Cloud Storage.

    Si tienes varias entradas, puedes especificarlas con varias marcas --input. Las entradas se pueden especificar en cualquier orden. El ejemplo siguiente muestra cómo especificar dos entradas:

    ...
    --input INPUT_FILE_1=gs://PATH/TO/INPUT_FILE_1 \
    --input INPUT_FILE_2=gs://PATH/TO/INPUT_FILE_2 \
    ...
    
  4. Verifica que se haya generado el archivo BAI:

    gsutil ls BUCKET
    

    El comando debería mostrar lo siguiente:

    gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai
    

Limpieza

Sigue estos pasos para evitar que se generen cargos en tu cuenta de Google Cloud Platform por los recursos que se usaron en este instructivo:

Una vez que hayas finalizado el instructivo para ejecutar la canalización de dsub, puedes limpiar los recursos que creaste en Google Cloud Platform a fin de que no se te facturen en el futuro. En las siguientes secciones se describe cómo borrar o desactivar estos recursos.

Cómo borrar el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que utilizaste para el instructivo.

Para borrar el proyecto, haz lo siguiente:

  1. En GCP Console, ve a la página Proyectos.

    Ir a la página Proyectos

  2. En la lista de proyectos, selecciona el proyecto que quieres borrar y haz clic en Borrar proyecto. Después de seleccionar la casilla de verificación junto al nombre del proyecto, haz clic en Borrar proyecto
  3. En el cuadro de diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?

Consulta la documentación sobre dsub en GitHub para obtener más detalles y ejemplos sobre cómo utilizar dsub con datos genómicos.

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

Documentación de Cloud Life Sciences