Simons Genome Diversity Project

Este conjunto de datos, proporcionado por el Simons Genome Diversity Project (SGDP), abarca 279 genomas accesibles públicamente que provienen de 127 poblaciones diversas. Consulta las siguientes publicaciones para obtener los detalles completos:

Acceso al conjunto de datos

Carpetas de Cloud Storage

Los siguientes archivos están disponibles en el depósito genomics-public-data de Cloud Storage:

Conjuntos de datos de BigQuery

Puedes acceder a los siguientes conjuntos de datos en BigQuery para explorar y consultar los datos:

Acerca del conjunto de datos

Conjunto de datos completo con los 279 genomas

Se extrajeron los archivos VCF públicos del archivo README del proyecto SGSP al depósito de Cloud Storage gs://genomics-public-data/simons-genome-diversity-project.

Luego se importaron los archivos a Cloud Life Sciences, y las variantes se exportaron a la tabla de BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_variants.

Los metadatos de muestra se cargaron en la tabla de BigQuery bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_metadata mediante los siguientes comandos:

wget http://simonsfoundation.s3.amazonaws.com/share/SCDA/datasets/10_24_2014_SGDP_metainformation_update.txt
# Strip blank lines from end of file and white space from end of lines.
sed ':a;/^[\t\r\n]\*$/{$d;N;ba}' 10_24_2014_SGDP_metainformation_update.txt \
    | sed 's/\s*$//g' > 10_24_2014_SGDP_metainformation_update.tsv
bq load --autodetect \
    simons_genome_diversity_project.sample_metadata 10_24_2014_SGDP_metainformation_update.tsv

Los metadatos de muestra no utilizan los mismos identificadores de muestra que los VCF y, además, les falta una fila. Sus atributos de muestra se descargaron de http://www.ebi.ac.uk/ena/data/view/PRJEB9586 y se les dio un formato nuevo para agregarlos a la tabla bigquery-public-data:human_genome_variants.simons_genome_diversity_project_sample_attributes de BigQuery. Esto se hizo con la secuencia de comandos wrangle-simons-sample-attributes.R. La secuencia de comandos asigna nuevamente tres muestras cuyos ID en los VCF de origen no coincidían con los ID de atributo de Illumina correspondientes en el EBI.

Uso: Este conjunto de datos está disponible públicamente para que lo use cualquier persona de conformidad con las condiciones que proveen las fuentes del conjunto de datos (https://www.hms.harvard.edu y https://www.simonsfoundation.org/simons-genome-diversity-project/) y se proporciona "COMO ESTÁ", sin ninguna garantía por parte de Google, ni explícita ni implícita. Google rehúsa toda responsabilidad por cualquier daño, directo o indirecto, como resultado del uso de estos conjuntos de datos.