Guía de inicio rápido: Procesa datos genómicos con Cloud Life Sciences

Procesa datos genómicos con Cloud Life Sciences

En esta página, se explica cómo ejecutar una canalización de genómica que utiliza la API de Cloud Life Sciences para crear un archivo de índice (archivo BAI) a partir de un archivo binario que contiene secuencias de ADN (archivo BAM).

Los archivos BAM suelen ser grandes y pueden tardar mucho tiempo en leerse con un visor de genomas. Usa un archivo BAI para localizar las partes del archivo BAM que contienen la posición del genoma que te interesa.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. Habilita las API de Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Habilita las API

  5. Instala Google Cloud CLI.
  6. Para inicializar la CLI de gcloud, ejecuta el siguiente comando:

    gcloud init
  7. En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  8. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  9. Habilita las API de Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Habilita las API

  10. Instala Google Cloud CLI.
  11. Para inicializar la CLI de gcloud, ejecuta el siguiente comando:

    gcloud init
  12. Como alternativa, puede usar Cloud Shell, que ya tiene instalada gcloud CLI.

  13. Instala Python 3.8.

    Si usas Windows y dejaste seleccionada la casilla de verificación relevante cuando instalaste Google Cloud CLI, esto se hizo automáticamente.

Ejecuta la canalización

Para ejecutar la canalización, complete los siguientes pasos:

  1. Crea un bucket en el que almacenes el archivo BAI. Los buckets son los contenedores básicos que conservan tus datos en Cloud Storage. Para crear un bucket llamado PROJECT_ID-life-sciences, ejecuta el comando gsutil mb:

    gsutil mb gs://PROJECT_ID-life-sciences
    

    Reemplaza PROJECT_ID por el ID del proyecto de Google Cloud. Debes usar un nombre de bucket único a nivel global.

    Si se completa correctamente, el comando muestra lo siguiente:

    Creating gs://PROJECT_ID-life-sciences
    
  2. Para iniciar la canalización, ejecuta el comando gcloud beta lifesciences pipelines run:

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

    Si se completa correctamente, el comando muestra lo siguiente:

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    

    Toma nota del OPERATION_ID, que usarás en el siguiente paso.

  3. Para hacer un seguimiento del estado de la canalización, ejecuta el comando gcloud beta lifesciences operations wait. Reemplaza OPERATION_ID por el valor impreso en el paso anterior. La canalización tarda unos minutos en finalizar.

    gcloud beta lifesciences operations wait OPERATION_ID
    

    Después de que la operación finaliza, muestra el mensaje siguiente:

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  4. Para verificar que se generó el archivo BAI, ejecuta el comando gsutil ls:

    gsutil ls gs://PROJECT_ID-life-sciences
    

    Si se completa correctamente, el comando muestra lo siguiente:

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

Ejecutaste una canalización con la API de Cloud Life Sciences para crear un archivo BAI a partir de un archivo BAM. Usa un visor de genomas para examinar el archivo NA12878.chr20.sample.bam de BAM con el archivo de índice NA12878.chr20.sample.bam.bai.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en esta página.

Borra el archivo BAI

Para borrar el archivo BAI generado, pero conservar el proyecto y el bucket que creaste, ejecuta el comando gsutil rm:

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Borra el bucket

Si creaste el bucket específicamente para esta guía de inicio rápido y ya no lo necesitas, pero quieres conservar tu proyecto, borra el bucket con el comando gsutil rb. Cuando se borra el bucket también se borra el archivo BAI generado.

gsutil rb gs://PROJECT_ID-life-sciences

Borra el proyecto

Si creaste el proyecto específicamente para esta guía de inicio rápido y ya no lo necesitas, puedes borrarlo. Cuando borras el proyecto, también se borra el archivo BAI y el bucket de Cloud Storage.

  1. En la consola de Google Cloud, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Cómo fue?

¿Qué sigue?