Datos de The Cancer Genome Atlas

El programa Cancer Genome Atlas (TCGA) fue una iniciativa integral y coordinada para acelerar la comprensión de la base molecular del cáncer mediante la aplicación de tecnologías de análisis genómico, incluida la secuenciación de genomas a gran escala. Los datos generados a partir del programa caracterizó molecularmente más de 20,000 cánceres primarios e identificó muestras normales que abarcan 33 tipos de cáncer diferentes.

El Institute for Systems Biology Cancer Gateway in the Cloud (ISB-CGC) proporciona acceso a datos y metadatos de TCGA en tablas de BigQuery para facilitar el acceso y el análisis. Estas tablas consolidan la información dispersa en miles de datos XML y tabulares de acceso abierto de TCGA en un formato que se puede consultar por tipo de datos (por ejemplo, clínico, biospecífico, expresión genética y mutación) para facilitar el acceso y análisis.

De manera similar, ISB-CGC creó tablas de BigQuery para otros programas contra el cáncer; consulta la documentación de programas de ISB-CGC.

ISB-CGC también proporciona ejemplos de notebooks en R y Python que van desde la compilación y el análisis de consultas simples o complejas mediante las tablas de BigQuery de ISB-CGC:

Acceso al conjunto de datos

Carpetas de Cloud Storage

ISB-CGC almacena las rutas de almacenamiento en la nube a los datos de TCGA alojados por Genomic Data Commons del Instituto Nacional del Cáncer en el conjunto de datos de BigQuery isb-cgc-bq.GDC_case_file_metadata. Consulta la documentación de TCGA del ISB-CGC para obtener información sobre cómo acceder a las ubicaciones de estos archivos.

Conjuntos de datos de BigQuery

Puedes acceder a los siguientes conjuntos de datos de TCGA en BigQuery para explorar y consultar los datos:

Para explorar otros conjuntos de datos de cáncer de ISB-CGC, usa la herramienta de búsqueda de BigQuery de ISB-CGC. Puedes encontrar estos datos en el proyecto isb-cgc-bq en Google BigQuery. Para obtener más información sobre ISB-CGC y sus datos, consulta la documentación de ISB-CGC.

Acerca de los datos

Uso: Este conjunto de datos está disponible públicamente para que lo use cualquier persona de conformidad con las condiciones que provee la fuente del conjunto de datos (https://cancergenome.nih.gov/) y se proporciona "COMO ESTÁ", sin ninguna garantía por parte de Google, ni explícita ni implícita. Google rehúsa toda responsabilidad por cualquier daño, directo o indirecto, que resulte del uso del conjunto de datos.