BigQuery로 간격 JOIN 실행

BigQuery를 사용하여 게놈 영역 간격이나 겹침을 나타내는 데이터에서 변이에 대한 JOIN 쿼리를 실행할 수 있습니다. 이 페이지에서는 복잡한 JOIN 쿼리를 사용하여 유전자 이름 목록을 가져오고 다음 작업을 실행하는 방법을 보여줍니다.

  • 유전자를 겹치게 하는 희귀 SNP 찾기
  • 전체 게놈 샘플에서 게놈 하나의 양쪽에 있는 염기쌍 100,000개 찾기

이 가이드에서는 세 가지 쿼리의 예시를 보여줍니다. 각 쿼리는 BigQuery가 각기 다른 크기의 게놈 데이터에서 확장하는 방법을 보여줍니다.

이 데이터는 약 90억 개 행인 Tute Genomics 주석 테이블과 Illumina Platinum Genomes 데이터 세트에서 가져온 것입니다. 이 데이터 세트에 익숙하지 않다면 다음 링크를 참조하세요.

인라인 테이블 쿼리

다음 예시는 intervals라는 쿼리에 정의된 간격 테이블을 사용하고 Illumina Platinum Genomes의 변이를 포함하는 테이블에서 JOIN 쿼리를 실행하는 방법을 보여줍니다.

  1. Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

    BigQuery 페이지로 이동

  2. 쿼리 작성을 클릭합니다.

  3. 새 쿼리 필드에서 다음 쿼리를 실행합니다.

    #standardSQL
    WITH
      --
      -- Retrieve the variants in this cohort, flattening by alternate bases and
      -- counting affected alleles.
      variants AS (
      SELECT
        REPLACE(reference_name, 'chr', '') as reference_name,
        start_position,
        end_position,
        reference_bases,
        alternate_bases.alt AS alt,
        (SELECT COUNTIF(gt = alt_offset+1) FROM v.call call, call.genotype gt) AS num_variant_alleles,
        (SELECT COUNTIF(gt >= 0) FROM v.call call, call.genotype gt) AS total_num_alleles
      FROM
        `bigquery-public-data.human_genome_variants.platinum_genomes_deepvariant_variants_20180823` v,
        UNNEST(v.alternate_bases) alternate_bases WITH OFFSET alt_offset ),
      --
      -- Define an inline table that uses five rows
      -- selected from silver-wall-555.TuteTable.hg19.
      intervals AS (
        SELECT * FROM UNNEST ([
        STRUCT<Gene STRING, Chr STRING, gene_start INT64, gene_end INT64, region_start INT64, region_end INT64>
        ('PRCC', '1', 156736274, 156771607, 156636274, 156871607),
        ('NTRK1', '1', 156785541, 156852640, 156685541, 156952640),
        ('PAX8', '2', 113972574, 114037496, 113872574, 114137496),
        ('FHIT', '3', 59734036, 61238131, 59634036, 61338131),
        ('PPARG', '3', 12328349, 12476853, 12228349, 12576853)
      ])),
      --
      -- JOIN the variants with the genomic intervals overlapping
      -- the genes of interest.
      --
      -- The JOIN criteria is complicated because the task is to see if
      -- an SNP overlaps an interval.  With standard SQL you can use complex
      -- JOIN predicates, including arbitrary expressions.
      gene_variants AS (
      SELECT
        reference_name,
        start_position,
        reference_bases,
        alt,
        num_variant_alleles,
        total_num_alleles
      FROM
        variants
      INNER JOIN
        intervals ON
        variants.reference_name = intervals.Chr
        AND intervals.region_start <= variants.start_position
        AND intervals.region_end >= variants.end_position )
      --
      -- And finally JOIN the variants in the regions of interest
      -- with annotations for rare variants.
    SELECT DISTINCT
      Chr,
      annots.Start AS Start,
      Ref,
      annots.Alt,
      Func,
      Gene,
      PopFreqMax,
      ExonicFunc,
      num_variant_alleles,
      total_num_alleles
    FROM
      `silver-wall-555.TuteTable.hg19` AS annots
    INNER JOIN
      gene_variants AS vars
    ON
      vars.reference_name = annots.Chr
      AND vars.start_position = annots.Start
      AND vars.reference_bases = annots.Ref
      AND vars.alt = annots.Alt
    WHERE
      -- Retrieve annotations for rare variants only.
      PopFreqMax <= 0.01
    ORDER BY
      Chr,
      Start;
    
  4. 쿼리 실행을 클릭합니다. 쿼리 실행에는 약 10초가 소요되고 약 334GB의 데이터를 처리합니다. 쿼리 결과는 관심 영역과 겹치는 집단 내에서 희귀 변이를 확인합니다.

    쿼리 결과를 보려면 다음 섹션을 확장합니다.

    쿼리 결과

    Chr 시작 참조 Alt Func Gene PopFreqMax ExonicFunc num_variant_alleles total_num_alleles
    1 156699757 T C 인트론 RRNAD1 0.002 2 4
    1 156705390 C T 인트론 RRNAD1 8.0E-4 0 2
    1 156714207 T C 인트론 HDGF 0.003 0 6
    1 156714440 A C 인트론 HDGF 0.0068 0 12
    1 156723870 C T 유전자간 HDGF,PRCC 0.006 1 2
    1 156724456 C T 유전자간 HDGF,PRCC 0.002 2 4
    1 156733988 C T 유전자간 HDGF,PRCC 0.001 1 2
    1 156742258 T G 인트론 PRCC 0.001 2 4
    1 156744826 T G 인트론 PRCC 0.002 0 8
    1 156779764 G A 인트론 SH2D2A 0.001 2 4
    1 156783454 A C 인트론 SH2D2A 0.0014 1 2
    1 156786144 C T 인트론 NTRK1,SH2D2A 0.0031 2 4
    1 156790510 A T 인트론 NTRK1 0.002 1 2
    1 156815332 A C 인트론 INSRR,NTRK1 0.003 0 2
    1 156830778 G A 엑손 NTRK1 0.0067 미스센스 2 4
    1 156842064 C T 인트론 NTRK1 0.0014 1 2
    1 156843438 C A 엑손 NTRK1 0.0032 미스센스 1 2
    1 156845773 C T 인트론 NTRK1 0.001 2 4
    1 156873318 T C 인트론 PEAR1 0.01 4 8
    1 156922740 G A 인트론 ARHGEF11 0.007 1 2
    1 156930100 C T 인트론 ARHGEF11 0.001 2 4
    2 113901230 G A 유전자간 IL1RN,PSD4 0.0082 1 2
    2 113953418 C A 인트론 PSD4 0.001 2 4
    2 113967621 G C 유전자간 PSD4,PAX8 0.002 0 6
    2 113967624 T C 유전자간 PSD4,PAX8 0.002 0 2
    2 113980967 G A 인트론 PAX8 0.002 2 4
    2 113994010 A C ncRNA_exonic PAX8-AS1 0.001 0 4
    2 113997745 C A ncRNA_exonic PAX8-AS1 0.001 2 4
    2 114061327 T C 유전자간 PAX8,CBWD2 0.001 2 4
    2 114084018 A C 유전자간 PAX8,CBWD2 0.0045 0 4
    2 114099037 G A 유전자간 PAX8,CBWD2 0.0051 1 2
    2 114105670 A T 유전자간 PAX8,CBWD2 0.001 1 2
    2 114111325 G T 유전자간 PAX8,CBWD2 0.001 1 2
    3 12265797 C T 유전자간 SYN2,PPARG 0.0089 2 4
    3 12277958 A G 유전자간 SYN2,PPARG 0.002 1 2
    3 12296019 G A 유전자간 SYN2,PPARG 0.002 2 4
    3 12316549 G C 유전자간 SYN2,PPARG 0.002 1 2
    3 12335681 T G 인트론 PPARG 0.0092 2 4
    3 12348795 T C 인트론 PPARG 0.0014 1 2
    3 12353106 T C 인트론 PPARG 0.001 2 4
    3 12403825 G A 인트론 PPARG 0.0051 2 4
    3 12404394 G A 인트론 PPARG 0.001 1 2
    3 12410289 G A 인트론 PPARG 0.008 2 4
    3 12431381 C T 인트론 PPARG 0.0061 2 4
    3 12447267 G A 인트론 PPARG 0.0089 2 4
    3 12449379 C T 인트론 PPARG 0.0092 2 4
    3 12450848 C A 인트론 PPARG 0.0092 2 4
    3 12462847 T C 인트론 PPARG 0.002 1 2
    3 12492797 G A 유전자간 PPARG,TSEN2 0.01 1 2
    3 12503201 G A 유전자간 PPARG,TSEN2 0.0099 2 4
    3 12530460 A G 인트론 TSEN2 0.0092 2 4
    3 12531167 A G 인트론 TSEN2 0.0099 2 4
    3 12557737 A G 인트론 TSEN2 0.001 2 4
    3 59636143 A G 유전자간 C3orf67,FHIT 0.003 3 6
    3 59645934 A C 유전자간 C3orf67,FHIT 0.004 1 2
    3 59646893 G A 유전자간 C3orf67,FHIT 0.002 1 2
    3 59697024 A G 유전자간 C3orf67,FHIT 0.0072 1 2
    3 59701013 G A 유전자간 C3orf67,FHIT 0.004 2 4
    3 59733945 A G 유전자간 C3orf67,FHIT 0.001 2 4
    3 59747482 C T 인트론 FHIT 0.001 2 4
    3 59750635 A G 인트론 FHIT 0.003 1 2
    3 59757776 C T 인트론 FHIT 0.001 2 4
    3 59770612 G A 인트론 FHIT 0.001 2 4
    3 59804444 G C 인트론 FHIT 0.001 2 4
    3 59819769 T C 인트론 FHIT 0.001 2 4
    3 59884396 C T 인트론 FHIT 0.001 2 4
    3 59960728 A C 인트론 FHIT 0.01 1 2
    3 59970345 G A 인트론 FHIT 0.002 1 2
    3 59972417 T A 인트론 FHIT 0.0072 0 2
    3 60104328 C A 인트론 FHIT 0.01 2 4
    3 60139062 G A 인트론 FHIT 0.01 0 2
    3 60158066 C T 인트론 FHIT 0.001 1 2
    3 60169285 C T 인트론 FHIT 0.005 1 2
    3 60216185 T C 인트론 FHIT 0.002 1 2
    3 60226380 G A 인트론 FHIT 0.007 2 4
    3 60234539 C A 인트론 FHIT 0.002 1 2
    3 60247464 A C 인트론 FHIT 0.004 2 4
    3 60269926 A G 인트론 FHIT 0.007 2 4
    3 60271228 G T 인트론 FHIT 0.007 2 4
    3 60286972 T C 인트론 FHIT 0.001 2 4
    3 60301412 C G 인트론 FHIT 0.001 1 2
    3 60312251 C T 인트론 FHIT 0.0099 1 2
    3 60317682 A G 인트론 FHIT 0.008 1 2
    3 60328557 C G 인트론 FHIT 0.0043 2 4
    3 60342562 C T 인트론 FHIT 0.006 1 2
    3 60400033 G A 인트론 FHIT 0.004 2 4
    3 60435819 C T 인트론 FHIT 0.006 2 4
    3 60435820 G T 인트론 FHIT 0.004 1 2
    3 60441288 T C 인트론 FHIT 0.006 2 4
    3 60444465 C A 인트론 FHIT 0.01 1 2
    3 60444575 C T 인트론 FHIT 0.001 1 2
    3 60450581 T C 인트론 FHIT 0.01 1 2
    3 60456571 G A 인트론 FHIT 0.001 2 4
    3 60473568 C G 인트론 FHIT 0.001 1 2
    3 60487557 T C 인트론 FHIT 0.001 1 2
    3 60559705 A G 인트론 FHIT 0.002 2 4
    3 60570764 T C 인트론 FHIT 0.008 2 4
    3 60582100 C T 인트론 FHIT 0.001 1 2
    3 60587192 G A 인트론 FHIT 0.004 1 2
    3 60599869 G A 인트론 FHIT 0.0086 2 4
    3 60603091 C T 인트론 FHIT 0.001 2 4
    3 60603250 A T 인트론 FHIT 0.0099 1 2
    3 60609831 T G 인트론 FHIT 0.001 2 4
    3 60619756 G T 인트론 FHIT 0.0015 2 4
    3 60680758 C T 인트론 FHIT 0.0089 2 4
    3 60702243 G C 인트론 FHIT 0.001 2 4
    3 60702532 A G 인트론 FHIT 0.001 1 2
    3 60714328 A T 인트론 FHIT 0.004 1 2
    3 60725297 G A 인트론 FHIT 0.001 1 2
    3 60726640 G A 인트론 FHIT 0.01 2 4
    3 60795144 A G 인트론 FHIT 0.001 2 4
    3 60807171 A G 인트론 FHIT 0.001 1 2
    3 60813868 T C 인트론 FHIT 0.001 1 2
    3 60826546 C G 인트론 FHIT 0.0023 1 2
    3 60837392 C T 인트론 FHIT 0.001 1 2
    3 60846310 A G 인트론 FHIT 0.01 0 2
    3 60850985 C T 인트론 FHIT 0.004 1 2
    3 60852559 T C 인트론 FHIT 0.008 1 2
    3 60871759 T C 인트론 FHIT 0.004 1 2
    3 60884396 C T 인트론 FHIT 0.002 2 4
    3 60897092 C A 인트론 FHIT 0.001 2 4
    3 60940759 C T 인트론 FHIT 0.0089 1 2
    3 60982595 A G 인트론 FHIT 0.003 2 4
    3 60999283 G A 인트론 FHIT 0.001 1 2
    3 61042977 A G 인트론 FHIT 0.001 2 4
    3 61043349 T C 인트론 FHIT 0.001 2 4
    3 61044789 A C 인트론 FHIT 0.001 2 4
    3 61141621 G A 인트론 FHIT 0.003 1 2
    3 61148655 G C 인트론 FHIT 0.001 2 4
    3 61170747 C T 인트론 FHIT 0.003 1 2
    3 61189473 C G 인트론 FHIT 0.0099 1 2
    3 61190425 C T 인트론 FHIT 0.0023 2 4
    3 61193853 C T 인트론 FHIT 0.0099 0 2
    3 61194793 C T 인트론 FHIT 0.007 0 2
    3 61194840 A G 인트론 FHIT 0.0099 0 2
    3 61194886 T A 인트론 FHIT 0.0099 0 2
    3 61201777 C T 인트론 FHIT 0.001 2 4
    3 61202292 T C 인트론 FHIT 0.007 1 2
    3 61232806 G C 인트론 FHIT 0.0099 1 2
    3 61232910 C T 인트론 FHIT 0.0099 1 2
    3 61235824 A T 인트론 FHIT 0.001 2 4
    3 61283810 A C 유전자간 FHIT,PTPRG 0.0089 1 2
    3 61293731 T A 유전자간 FHIT,PTPRG 0.0089 2 4
    3 61296730 C T 유전자간 FHIT,PTPRG 0.001 1 2
    3 61326341 C T 유전자간 FHIT,PTPRG 0.004 2 4
    3 61326620 T C 유전자간 FHIT,PTPRG 0.01 1 2
    3 61327649 G C 유전자간 FHIT,PTPRG 0.001 2 4
    3 61330545 G C 유전자간 FHIT,PTPRG 0.001 2 4
    3 61335803 G A 유전자간 FHIT,PTPRG 0.001 2 4

    1,000 Genomes Phase 3의 데이터를 사용한 유사한 쿼리를 실행하는 데에는 약 90초가 소요되고 약 3.38TB의 데이터를 처리합니다.

구체화된 테이블 사용

대규모 빅데이터를 사용할 때 간격 테이블을 구체화하고 새 테이블에 대해 JOIN 쿼리를 실행할 수 있습니다. 이 섹션의 나머지 부분을 계속 진행하기 전에 다음 단계를 따라 데이터 세트를 만듭니다.

  1. Google Cloud 콘솔에서 BigQuery 페이지를 엽니다.

    BigQuery 페이지로 이동

  2. 탐색기 패널에서 데이터 세트를 만들 프로젝트를 선택합니다.

  3. 작업 옵션을 펼치고 데이터 세트 만들기를 클릭합니다.

  4. 데이터 세트 만들기 페이지에서 다음을 실행합니다.

    1. 데이터 세트 IDgenomics을 입력합니다.
    2. 다른 기본 설정은 그대로 둡니다.
    3. 데이터 세트 만들기를 클릭합니다.

특정 유전자에서 구체화된 테이블 쿼리

다음 예시는 silver-wall-555:TuteTable.hg19 테이블의 특정 유전자 목록을 포함하는 새로운 간격 테이블을 구체화하는 방법을 보여줍니다.

  1. 간격 테이블을 만들려면 다음 단계를 수행합니다.

    1. Google Cloud 콘솔에서 BigQuery 페이지를 엽니다.

      BigQuery 페이지로 이동

    2. 쿼리 작성을 클릭합니다.

    3. 새 쿼리 필드에서 다음 쿼리를 실행합니다. 쿼리는 silver-wall-555:TuteTable.hg19 테이블의 일부를 새 genomics.myIntervalTable 간격 테이블로 구체화합니다.

      #standardSQL
      CREATE TABLE `genomics.myIntervalTable` AS (
      SELECT
        Gene,
        Chr,
        MIN(Start) AS gene_start,
        MAX(`End`) AS gene_end,
        MIN(Start)-100000 AS region_start,
        MAX(`End`)+100000 AS region_end
      FROM
        `silver-wall-555.TuteTable.hg19`
      WHERE
        Gene IN ('APC', 'ATM', 'BMPR1A', 'BRCA1', 'BRCA2', 'CDK4',
        'CDKN2A', 'CREBBP', 'EGFR', 'EP300', 'ETV6', 'FHIT', 'FLT3',
        'HRAS', 'KIT', 'MET', 'MLH1', 'NTRK1', 'PAX8', 'PDGFRA',
        'PPARG', 'PRCC', 'PRKAR1A', 'PTEN', 'RET', 'STK11',
        'TFE3', 'TGFB1', 'TGFBR2', 'TP53', 'WWOX')
      GROUP BY
        Chr,
        Gene );
      
    4. 쿼리 실행을 클릭합니다. 쿼리는 다음 결과를 반환합니다.

    This statement created a new table named PROJECT_ID:genomics.myIntervalTable.
    
  2. 새 쿼리 필드에서 다음 쿼리를 실행합니다.

    #standardSQL
    WITH
      --
      -- Retrieve the variants in this cohort, flattening by alternate bases and
      -- counting affected alleles.
      variants AS (
      SELECT
        REPLACE(reference_name, 'chr', '') as reference_name,
        start_position,
        end_position,
        reference_bases,
        alternate_bases.alt AS alt,
        (SELECT COUNTIF(gt = alt_offset+1) FROM v.call call, call.genotype gt) AS num_variant_alleles,
        (SELECT COUNTIF(gt >= 0) FROM v.call call, call.genotype gt) AS total_num_alleles
      FROM
        `bigquery-public-data.human_genome_variants.platinum_genomes_deepvariant_variants_20180823` v,
        UNNEST(v.alternate_bases) alternate_bases WITH OFFSET alt_offset ),
      --
      -- JOIN the variants with the genomic intervals overlapping
      -- the genes of interest.
      --
      -- The JOIN criteria is complicated because the task is to see if
      -- an SNP overlaps an interval.  With standard SQL you can use complex
      -- JOIN predicates, including arbitrary expressions.
      gene_variants AS (
      SELECT
        reference_name,
        start_position,
        reference_bases,
        alt,
        num_variant_alleles,
        total_num_alleles
      FROM
        variants
      INNER JOIN
        `genomics.myIntervalTable` AS intervals ON
        variants.reference_name = intervals.Chr
        AND intervals.region_start <= variants.start_position
        AND intervals.region_end >= variants.end_position )
      --
      -- And finally JOIN the variants in the regions of interest
      -- with annotations for rare variants.
    SELECT DISTINCT
      Chr,
      annots.Start AS Start,
      Ref,
      annots.Alt,
      Func,
      Gene,
      PopFreqMax,
      ExonicFunc,
      num_variant_alleles,
      total_num_alleles
    FROM
      `silver-wall-555.TuteTable.hg19` AS annots
    INNER JOIN
      gene_variants AS vars
    ON
      vars.reference_name = annots.Chr
      AND vars.start_position = annots.Start
      AND vars.reference_bases = annots.Ref
      AND vars.alt = annots.Alt
    WHERE
      -- Retrieve annotations for rare variants only.
      PopFreqMax <= 0.01
    ORDER BY
      Chr,
      Start;
    
  3. 쿼리 실행을 클릭합니다. 쿼리 실행에는 약 10초가 소요되고 약 334GB의 데이터를 처리합니다. 쿼리 결과는 관심 영역과 겹치는 집단 내에서 희귀 변이를 확인합니다.

    쿼리 결과를 보려면 다음 섹션을 확장합니다.

    쿼리 결과

    Chr 시작 참조 Alt Func Gene PopFreqMax ExonicFunc num_variant_alleles total_num_alleles
    1 156699757 T C 인트론 RRNAD1 0.002 2 4
    1 156705390 C T 인트론 RRNAD1 8.0E-4 0 2
    1 156714207 T C 인트론 HDGF 0.003 0 6
    1 156714440 A C 인트론 HDGF 0.0068 0 12
    1 156723870 C T 유전자간 HDGF,PRCC 0.006 1 2
    1 156724456 C T 유전자간 HDGF,PRCC 0.002 2 4
    1 156733988 C T 유전자간 HDGF,PRCC 0.001 1 2
    1 156742258 T G 인트론 PRCC 0.001 2 4
    1 156744826 T G 인트론 PRCC 0.002 0 8
    1 156779764 G A 인트론 SH2D2A 0.001 2 4
    1 156783454 A C 인트론 SH2D2A 0.0014 1 2
    1 156786144 C T 인트론 NTRK1,SH2D2A 0.0031 2 4
    1 156790510 A T 인트론 NTRK1 0.002 1 2
    1 156815332 A C 인트론 INSRR,NTRK1 0.003 0 2
    1 156830778 G A 엑손 NTRK1 0.0067 미스센스 2 4
    1 156842064 C T 인트론 NTRK1 0.0014 1 2
    1 156843438 C A 엑손 NTRK1 0.0032 미스센스 1 2
    1 156845773 C T 인트론 NTRK1 0.001 2 4
    1 156873318 T C 인트론 PEAR1 0.01 4 8
    1 156922740 G A 인트론 ARHGEF11 0.007 1 2
    1 156930100 C T 인트론 ARHGEF11 0.001 2 4
    2 113901230 G A 유전자간 IL1RN,PSD4 0.0082 1 2
    2 113953418 C A 인트론 PSD4 0.001 2 4
    2 113967621 G C 유전자간 PSD4,PAX8 0.002 0 6
    2 113967624 T C 유전자간 PSD4,PAX8 0.002 0 2
    2 113980967 G A 인트론 PAX8 0.002 2 4
    2 113994010 A C ncRNA_exonic PAX8-AS1 0.001 0 4
    2 113997745 C A ncRNA_exonic PAX8-AS1 0.001 2 4
    2 114061327 T C 유전자간 PAX8,CBWD2 0.001 2 4
    2 114084018 A C 유전자간 PAX8,CBWD2 0.0045 0 4
    2 114099037 G A 유전자간 PAX8,CBWD2 0.0051 1 2
    2 114105670 A T 유전자간 PAX8,CBWD2 0.001 1 2
    2 114111325 G T 유전자간 PAX8,CBWD2 0.001 1 2
    3 12265797 C T 유전자간 SYN2,PPARG 0.0089 2 4
    3 12277958 A G 유전자간 SYN2,PPARG 0.002 1 2
    3 12296019 G A 유전자간 SYN2,PPARG 0.002 2 4
    3 12316549 G C 유전자간 SYN2,PPARG 0.002 1 2
    3 12335681 T G 인트론 PPARG 0.0092 2 4
    3 12348795 T C 인트론 PPARG 0.0014 1 2
    3 12353106 T C 인트론 PPARG 0.001 2 4
    3 12403825 G A 인트론 PPARG 0.0051 2 4
    3 12404394 G A 인트론 PPARG 0.001 1 2
    3 12410289 G A 인트론 PPARG 0.008 2 4
    3 12431381 C T 인트론 PPARG 0.0061 2 4
    3 12447267 G A 인트론 PPARG 0.0089 2 4
    3 12449379 C T 인트론 PPARG 0.0092 2 4
    3 12450848 C A 인트론 PPARG 0.0092 2 4
    3 12462847 T C 인트론 PPARG 0.002 1 2
    3 12492797 G A 유전자간 PPARG,TSEN2 0.01 1 2
    3 12503201 G A 유전자간 PPARG,TSEN2 0.0099 2 4
    3 12530460 A G 인트론 TSEN2 0.0092 2 4
    3 12531167 A G 인트론 TSEN2 0.0099 2 4
    3 12557737 A G 인트론 TSEN2 0.001 2 4
    3 59636143 A G 유전자간 C3orf67,FHIT 0.003 3 6
    3 59645934 A C 유전자간 C3orf67,FHIT 0.004 1 2
    3 59646893 G A 유전자간 C3orf67,FHIT 0.002 1 2
    3 59697024 A G 유전자간 C3orf67,FHIT 0.0072 1 2
    3 59701013 G A 유전자간 C3orf67,FHIT 0.004 2 4
    3 59733945 A G 유전자간 C3orf67,FHIT 0.001 2 4
    3 59747482 C T 인트론 FHIT 0.001 2 4
    3 59750635 A G 인트론 FHIT 0.003 1 2
    3 59757776 C T 인트론 FHIT 0.001 2 4
    3 59770612 G A 인트론 FHIT 0.001 2 4
    3 59804444 G C 인트론 FHIT 0.001 2 4
    3 59819769 T C 인트론 FHIT 0.001 2 4
    3 59884396 C T 인트론 FHIT 0.001 2 4
    3 59960728 A C 인트론 FHIT 0.01 1 2
    3 59970345 G A 인트론 FHIT 0.002 1 2
    3 59972417 T A 인트론 FHIT 0.0072 0 2
    3 60104328 C A 인트론 FHIT 0.01 2 4
    3 60139062 G A 인트론 FHIT 0.01 0 2
    3 60158066 C T 인트론 FHIT 0.001 1 2
    3 60169285 C T 인트론 FHIT 0.005 1 2
    3 60216185 T C 인트론 FHIT 0.002 1 2
    3 60226380 G A 인트론 FHIT 0.007 2 4
    3 60234539 C A 인트론 FHIT 0.002 1 2
    3 60247464 A C 인트론 FHIT 0.004 2 4
    3 60269926 A G 인트론 FHIT 0.007 2 4
    3 60271228 G T 인트론 FHIT 0.007 2 4
    3 60286972 T C 인트론 FHIT 0.001 2 4
    3 60301412 C G 인트론 FHIT 0.001 1 2
    3 60312251 C T 인트론 FHIT 0.0099 1 2
    3 60317682 A G 인트론 FHIT 0.008 1 2
    3 60328557 C G 인트론 FHIT 0.0043 2 4
    3 60342562 C T 인트론 FHIT 0.006 1 2
    3 60400033 G A 인트론 FHIT 0.004 2 4
    3 60435819 C T 인트론 FHIT 0.006 2 4
    3 60435820 G T 인트론 FHIT 0.004 1 2
    3 60441288 T C 인트론 FHIT 0.006 2 4
    3 60444465 C A 인트론 FHIT 0.01 1 2
    3 60444575 C T 인트론 FHIT 0.001 1 2
    3 60450581 T C 인트론 FHIT 0.01 1 2
    3 60456571 G A 인트론 FHIT 0.001 2 4
    3 60473568 C G 인트론 FHIT 0.001 1 2
    3 60487557 T C 인트론 FHIT 0.001 1 2
    3 60559705 A G 인트론 FHIT 0.002 2 4
    3 60570764 T C 인트론 FHIT 0.008 2 4
    3 60582100 C T 인트론 FHIT 0.001 1 2
    3 60587192 G A 인트론 FHIT 0.004 1 2
    3 60599869 G A 인트론 FHIT 0.0086 2 4
    3 60603091 C T 인트론 FHIT 0.001 2 4
    3 60603250 A T 인트론 FHIT 0.0099 1 2
    3 60609831 T G 인트론 FHIT 0.001 2 4
    3 60619756 G T 인트론 FHIT 0.0015 2 4
    3 60680758 C T 인트론 FHIT 0.0089 2 4
    3 60702243 G C 인트론 FHIT 0.001 2 4
    3 60702532 A G 인트론 FHIT 0.001 1 2
    3 60714328 A T 인트론 FHIT 0.004 1 2
    3 60725297 G A 인트론 FHIT 0.001 1 2
    3 60726640 G A 인트론 FHIT 0.01 2 4
    3 60795144 A G 인트론 FHIT 0.001 2 4
    3 60807171 A G 인트론 FHIT 0.001 1 2
    3 60813868 T C 인트론 FHIT 0.001 1 2
    3 60826546 C G 인트론 FHIT 0.0023 1 2
    3 60837392 C T 인트론 FHIT 0.001 1 2
    3 60846310 A G 인트론 FHIT 0.01 0 2
    3 60850985 C T 인트론 FHIT 0.004 1 2
    3 60852559 T C 인트론 FHIT 0.008 1 2
    3 60871759 T C 인트론 FHIT 0.004 1 2
    3 60884396 C T 인트론 FHIT 0.002 2 4
    3 60897092 C A 인트론 FHIT 0.001 2 4
    3 60940759 C T 인트론 FHIT 0.0089 1 2
    3 60982595 A G 인트론 FHIT 0.003 2 4
    3 60999283 G A 인트론 FHIT 0.001 1 2
    3 61042977 A G 인트론 FHIT 0.001 2 4
    3 61043349 T C 인트론 FHIT 0.001 2 4
    3 61044789 A C 인트론 FHIT 0.001 2 4
    3 61141621 G A 인트론 FHIT 0.003 1 2
    3 61148655 G C 인트론 FHIT 0.001 2 4
    3 61170747 C T 인트론 FHIT 0.003 1 2
    3 61189473 C G 인트론 FHIT 0.0099 1 2
    3 61190425 C T 인트론 FHIT 0.0023 2 4
    3 61193853 C T 인트론 FHIT 0.0099 0 2
    3 61194793 C T 인트론 FHIT 0.007 0 2
    3 61194840 A G 인트론 FHIT 0.0099 0 2
    3 61194886 T A 인트론 FHIT 0.0099 0 2
    3 61201777 C T 인트론 FHIT 0.001 2 4
    3 61202292 T C 인트론 FHIT 0.007 1 2
    3 61232806 G C 인트론 FHIT 0.0099 1 2
    3 61232910 C T 인트론 FHIT 0.0099 1 2
    3 61235824 A T 인트론 FHIT 0.001 2 4
    3 61283810 A C 유전자간 FHIT,PTPRG 0.0089 1 2
    3 61293731 T A 유전자간 FHIT,PTPRG 0.0089 2 4
    3 61296730 C T 유전자간 FHIT,PTPRG 0.001 1 2
    3 61326341 C T 유전자간 FHIT,PTPRG 0.004 2 4
    3 61326620 T C 유전자간 FHIT,PTPRG 0.01 1 2
    3 61327649 G C 유전자간 FHIT,PTPRG 0.001 2 4
    3 61330545 G C 유전자간 FHIT,PTPRG 0.001 2 4
    3 61335803 G A 유전자간 FHIT,PTPRG 0.001 2 4

    1,000 Genomes Phase 3의 데이터를 사용한 유사한 쿼리를 실행하는 데에는 약 90초가 소요되고 약 3.38TB의 데이터를 처리합니다.

무작위 유전자 250개가 있는 구체화된 테이블 쿼리

다음 예시는 silver-wall-555:TuteTable.hg19 테이블에서 무작위로 선택한 유전자 250개를 포함하는 구체화된 테이블에서 간격 JOIN을 실행하는 방법을 보여줍니다.

  1. 간격 테이블을 만들려면 다음 단계를 수행합니다.

    1. Google Cloud 콘솔에서 BigQuery 페이지를 엽니다.

      BigQuery 페이지로 이동

    2. 쿼리 작성을 클릭합니다.

    3. 새 쿼리 필드에서 silver-wall-555:TuteTable.hg19 테이블의 일부를 새 genomics.randomGenesIntervalTable 간격 테이블로 구체화하는 다음 쿼리를 실행합니다.

      #standardSQL
      CREATE TABLE `genomics.randomGenesIntervalTable` AS (
      SELECT
        Gene,
        Chr,
        MIN(Start) AS gene_start,
        MAX(`End`) AS gene_end,
        MIN(Start) - 100000 AS region_start,
        MAX(`End`) + 100000 AS region_end
      FROM
        `silver-wall-555.TuteTable.hg19`
      WHERE
        Gene IN (SELECT Gene FROM `silver-wall-555.TuteTable.hg19` GROUP BY Gene LIMIT 250)
      GROUP BY
        Chr,
        Gene );
      
      1. 쿼리 실행을 클릭합니다. 쿼리는 다음 결과를 반환합니다.
      This statement created a new table named PROJECT_ID:genomics.randomGenesIntervalTable.
      
  2. 새 쿼리 필드에서 다음 쿼리를 실행합니다.

    #standardSQL
    WITH
      --
      -- Retrieve the variants in this cohort, flattening by alternate bases and
      -- counting affected alleles.
      variants AS (
      SELECT
        REPLACE(reference_name, 'chr', '') as reference_name,
        start_position,
        end_position,
        reference_bases,
        alternate_bases.alt AS alt,
        (SELECT COUNTIF(gt = alt_offset+1) FROM v.call call, call.genotype gt) AS num_variant_alleles,
        (SELECT COUNTIF(gt >= 0) FROM v.call call, call.genotype gt) AS total_num_alleles
      FROM
        `bigquery-public-data.human_genome_variants.platinum_genomes_deepvariant_variants_20180823` v,
        UNNEST(v.alternate_bases) alternate_bases WITH OFFSET alt_offset ),
      --
      -- JOIN the variants with the genomic intervals overlapping
      -- the genes of interest.
      --
      -- The JOIN criteria is complicated because the task is to see if
      -- an SNP overlaps an interval.  With standard SQL you can use complex
      -- JOIN predicates, including arbitrary expressions.
      gene_variants AS (
      SELECT
        reference_name,
        start_position,
        reference_bases,
        alt,
        num_variant_alleles,
        total_num_alleles
      FROM
        variants
      INNER JOIN
        `genomics.randomGenesIntervalTable` AS intervals ON
        variants.reference_name = intervals.Chr
        AND intervals.region_start <= variants.start_position
        AND intervals.region_end >= variants.end_position )
      --
      -- And finally JOIN the variants in the regions of interest
      -- with annotations for rare variants.
    SELECT DISTINCT
      Chr,
      annots.Start AS Start,
      Ref,
      annots.Alt,
      Func,
      Gene,
      PopFreqMax,
      ExonicFunc,
      num_variant_alleles,
      total_num_alleles
    FROM
      `silver-wall-555.TuteTable.hg19` AS annots
    INNER JOIN
      gene_variants AS vars
    ON
      vars.reference_name = annots.Chr
      AND vars.start_position = annots.Start
      AND vars.reference_bases = annots.Ref
      AND vars.alt = annots.Alt
    WHERE
      -- Retrieve annotations for rare variants only.
      PopFreqMax <= 0.01
    ORDER BY
      Chr,
      Start;
    
  3. 쿼리 실행을 클릭합니다. 쿼리 실행에는 약 10초가 소요되고 약 334GB의 데이터를 처리합니다. 쿼리 결과는 관심 영역과 겹치는 집단 내에서 희귀 변이를 확인합니다.

    쿼리의 잘린 결과를 보려면 다음 섹션을 펼칩니다.

    쿼리 결과

    Chr 시작 참조 Alt Func Gene PopFreqMax ExonicFunc num_variant_alleles total_num_alleles
    1 2925355 C A 유전자간 TTC34,ACTRT2 0.001 2 4
    1 2933170 G A 유전자간 TTC34,ACTRT2 0.0083 0 4
    1 2944477 G A 유전자간 ACTRT2,LINC00982 0.003 4 6
    1 2967591 A T 유전자간 ACTRT2,LINC00982 0.0092 1 2
    1 2975255 T C 다운스트림 LINC00982 0.0082 1 2
    1 2977223 C T ncRNA_intronic LINC00982 0.0072 1 2
    1 2978803 G C ncRNA_exonic LINC00982 0.002 4 6
    1 3006466 G A 인트론 PRDM16 0.0098 1 2
    1 3011333 G T 인트론 PRDM16 0.004 1 2
    1 3019659 C T 인트론 PRDM16 0.0031 1 2
    1 3036896 G A 인트론 PRDM16 0.001 1 2
    1 3037388 G A 인트론 PRDM16 0.002 2 4
    1 3041250 T G 인트론 PRDM16 0.006 2 4
    1 3042502 A T 인트론 PRDM16 0.003 4 6
    1 3053713 A C 인트론 PRDM16 0.002 1 2
    1 3063109 C T 인트론 PRDM16 0.002 0 2
    1 3063593 T C 인트론 PRDM16 0.003 1 2
    1 3076439 C T 인트론 PRDM16 0.001 2 4
    1 3078960 G A 인트론 PRDM16 0.007 2 4
    1 3084268 A C 인트론 PRDM16 0.005 0 2
    1 3084492 T C 인트론 PRDM16 0.0015 0 2
    1 3084786 T C 인트론 PRDM16 0.0015 0 4
    1 3111119 G A 인트론 PRDM16 0.003 1 2
    1 3111643 C T 인트론 PRDM16 0.0041 1 2
    1 3114807 G A 인트론 PRDM16 0.0041 1 2
    1 3165530 C T 인트론 PRDM16 0.0089 1 2
    1 3169325 G A 인트론 PRDM16 0.008 2 4
    1 3179623 C T 인트론 PRDM16 0.003 2 4
    1 3181097 C T 인트론 PRDM16 0.001 2 4
    1 3194000 G C 인트론 PRDM16 0.005 2 4
    1 3195769 T C 인트론 PRDM16 0.002 1 2
    1 3197351 C T 인트론 PRDM16 0.0061 1 2
    1 3224100 C A 인트론 PRDM16 0.003 2 4
    1 3228644 G T 인트론 PRDM16 0.001 2 4
    1 3234045 G A 인트론 PRDM16 0.002 1 2
    1 3235971 G A 인트론 PRDM16 0.0089 1 2
    1 3274115 C T 인트론 PRDM16 0.001 2 4
    1 3291388 G A 인트론 PRDM16 0.002 2 4
    1 3295658 A C 인트론 PRDM16 0.0068 0 6
    1 3295937 A C 인트론 PRDM16 0.0068 0 2
    1 3296205 T C 인트론 PRDM16 0.0083 0 2
    1 3315690 G A 인트론 PRDM16 0.001 2 4
    1 3329212 G A 엑손 PRDM16 0.0031 미스센스 1 2
    1 3331787 C T 인트론 PRDM16 0.0099 1 2
    1 3370316 G C 업스트림 ARHGEF16 0.001 2 4
    1 3379560 A G 인트론 ARHGEF16 0.0051 0 6
    1 3391174 C T 인트론 ARHGEF16 0.006 1 2
    1 3413873 G A 엑손 MEGF6 0.003 미스센스 1 2
    1 3416272 C T 엑손 MEGF6 0.0072 무음 2 4
    1 3417122 G A 인트론 MEGF6 0.0038 2 4
    1 3436219 G A 인트론 MEGF6 0.0046 2 4
    1 12907456 A G 엑손 HNRNPCL1,LOC649330 0.006 미스센스 0 10
    1 12907518 C A 엑손 HNRNPCL1,LOC649330 1.0E-4 미스센스 0 10
    1 12908499 G C 인트론 HNRNPCL1 0.0031 0 8
    1 12931660 G C 유전자간 PRAMEF2,PRAMEF4 0.004 1 2
    1 12937721 G T 유전자간 PRAMEF2,PRAMEF4 0.0038 0 2
    1 12940827 G T 인트론 PRAMEF4 0.007 2 4
    1 12942759 T G 인트론 PRAMEF4 0.0076 0 10
    1 12942805 T G 인트론 PRAMEF4 0.0061 0 12
    1 12942812 G A 인트론 PRAMEF4 0.0061 0 12
    1 12942875 A G 인트론 PRAMEF4 0.0068 0 6
    1 12942912 G C 인트론 PRAMEF4 2.0E-4 0 2
    1 12942937 A T 엑손 PRAMEF4 0.0029 미스센스 0 2
    1 12942940 T G 엑손 PRAMEF4 0.0038 미스센스 0 2
    1 12943940 T C 인트론 PRAMEF4 0.0015 0 12
    1 12944138 A G 인트론 PRAMEF4 8.0E-4 0 12
    1 12944234 G A 인트론 PRAMEF4 0.0015 0 12
    1 12944589 T G 인트론 PRAMEF4 0.003 0 4
    1 12944845 A C 인트론 PRAMEF4 0.0014 0 6
    1 12946439 T C 업스트림 PRAMEF4 0.0029 0 10
    1 12946833 G A 업스트림 PRAMEF4 0.001 0 8
    1 12946835 T A 업스트림 PRAMEF4 0.004 0 12
    1 12995204 G T 유전자간 PRAMEF8,PRAMEF6 0.003 1 4
    1 12997638 T C 다운스트림 PRAMEF6,PRAMEF9 0.003 2 4
    1 13007841 G C 업스트림 PRAMEF6 0.0043 0 8
    1 13019228 T A 유전자간 PRAMEF6,LOC391003 0.0015 0 10
    1 13038503 G A UTR3 LOC391003 0.0072 1 2
    1 13051650 C T 유전자간 LOC391003,PRAMEF5 0.002 2 4
    1 15706063 G A 인트론 FHAD1 0.0029 1 2
    1 15713292 C T 인트론 FHAD1 0.001 1 2
    1 15766541 G C 인트론 CTRC 0.001 1 2
    1 15782601 T C 업스트림 CELA2A 0.0038 1 2
    1 15828125 G A 인트론 CASP9 0.0014 2 4
    1 15831037 G A 인트론 CASP9 0.0099 1 2
    1 15840513 T G 인트론 CASP9 0.0043 2 4
    1 15868742 G A 인트론 DNAJC16 0.001 1 2
    1 15876704 G A 인트론 DNAJC16 0.001 1 2
    1 15900342 C A 인트론 AGMAT 0.001 1 2
    1 15906257 T C 인트론 AGMAT 8.0E-4 1 2
    1 15911897 A G 업스트림 AGMAT 0.0043 2 4
    1 22764178 C T 유전자간 WNT4,ZBTB40 0.001 2 4
    1 22791939 C T 인트론 ZBTB40 0.0089 2 4
    1 22874394 C G 유전자간 ZBTB40,EPHA8 0.007 1 2
    1 22875103 C G 유전자간 ZBTB40,EPHA8 0.007 1 2
    1 22906403 C T 인트론 EPHA8 0.008 2 4
    1 22912956 G A 인트론 EPHA8 0.001 1 2
    1 22917007 C T 인트론 EPHA8 0.001 2 4
    1 22927240 G A 엑손 EPHA8 0.0013 미스센스 2 4
    1 22932265 G A 유전자간 EPHA8,MIR6127 0.0089 2 4
    1 22944057 C T 유전자간 EPHA8,MIR6127 0.0089 2 4
    1 22978799 A G 업스트림 C1QB 0.0099 2 4
    1 35170588 C T 유전자간 C1orf94,GJB5 0.01 1 2
    1 35172426 C T 유전자간 C1orf94,GJB5 0.008 1 2
    1 35172447 G A 유전자간 C1orf94,GJB5 0.001 1 2
    1 35175302 C T 유전자간 C1orf94,GJB5 0.008 1 2
    1 35177410 A T 유전자간 C1orf94,GJB5 0.001 1 2
    1 35178768 C T 유전자간 C1orf94,GJB5 0.0014 2 4
    1 35179362 G A 유전자간 C1orf94,GJB5 0.0014 2 4
    1 35186166 G A 유전자간 C1orf94,GJB5 0.0099 2 4
    1 35186520 A C 유전자간 C1orf94,GJB5 0.002 2 4
    1 35196361 G A 유전자간 C1orf94,GJB5 0.0099 2 4
    1 35223545 C T 엑손 GJB5 0.001 무음 1 2
    1 35224029 G A UTR3 GJB5 0.003 1 2
    1 35227895 T C UTR3 GJB4 5.0E-4 1 2
    1 35230455 G T 유전자간 GJB4,GJB3 0.0043 1 2
    1 35232954 T C 유전자간 GJB4,GJB3 0.003 1 2
    1 35237986 G A 유전자간 GJB4,GJB3 0.0014 1 2
    1 35245522 C T 유전자간 GJB4,GJB3 0.001 1 2
    1 35256979 C T 유전자간 GJB3,GJA4 0.002 2 4
    1 35263872 C T 유전자간 GJA4,SMIM12 5.0E-4 2 4
    1 35323895 A C 인트론 SMIM12 0.0027 2 4
    1 35369676 G A 인트론 DLGAP3 0.007 2 4
    1 35371634 T A 업스트림 DLGAP3 0.0015 0 4
    1 39253519 G A 유전자간 LINC01343,RRAGC 0.005 1 2
    1 39288829 G A 유전자간 LINC01343,RRAGC 0.0051 1 2
    1 39289832 A C 유전자간 LINC01343,RRAGC 0.002 0 2
    1 39312638 G A 인트론 RRAGC 0.0038 2 4
    1 39361372 G A 인트론 RHBDL2 0.005 1 2
    1 39363826 T G 인트론 RHBDL2 0.0029 1 2
    1 39367555 T C 인트론 RHBDL2 0.007 2 4
    1 39369531 T C 인트론 RHBDL2 0.001 2 4
    1 39370202 T C 인트론 RHBDL2 0.01 1 2
    1 39449101 A G 유전자간 RHBDL2,AKIRIN1 0.001 2 4
    1 39475057 G A 유전자간 AKIRIN1,NDUFS5 0.01 1 2
    1 39485016 C T 유전자간 AKIRIN1,NDUFS5 0.001 2 4
    1 39488137 A G 유전자간 AKIRIN1,NDUFS5 0.001 2 4
    1 39499212 A C 인트론 NDUFS5 0.001 0 2
    1 39500605 C G 다운스트림 NDUFS5 0.002 0 10
    1 46813814 T C 인트론 NSUN4 0.0014 1 2
    1 46817258 A G 인트론 NSUN4 0.005 0 2
    1 46843158 T C 유전자간 NSUN4,FAAH 0.001 1 2
    1 46933509 A G 유전자간 LINC01398,DMBX1 0.002 1 2
    1 46935021 G A 유전자간 LINC01398,DMBX1 0.004 2 4
    1 46939253 T A 유전자간 LINC01398,DMBX1 0.004 2 4
    1 46951788 C A 유전자간 LINC01398,DMBX1 0.002 2 4
    1 46980864 G C 다운스트림 DMBX1 0.003 1 2
    1 46989657 T C 유전자간 DMBX1,MKNK1-AS1 0.007 1 2
    1 46994678 C T 유전자간 DMBX1,MKNK1-AS1 0.002 1 2
    1 46999438 T C 유전자간 DMBX1,MKNK1-AS1 0.002 1 2
    1 92761505 A G 인트론 GLMN 0.001 2 4
    1 92764270 G C 인트론 GLMN 0.001 2 4
    1 92802210 G A 인트론 RPAP2 0.0072 1 2
    1 92820663 T A 인트론 RPAP2 0.0058 1 2
    1 92820664 G T 인트론 RPAP2 0.0058 1 2
    1 92820953 G A 인트론 RPAP2 0.007 2 4
    1 92824766 A G 인트론 RPAP2 0.0058 1 2
    1 92849183 C A 인트론 RPAP2 0.01 2 4
    1 92850696 C G 인트론 RPAP2 0.0023 1 2
    1 92861357 T C 유전자간 RPAP2,GFI1 0.01 2 4
    1 92877460 C G 유전자간 RPAP2,GFI1 0.002 1 2
    1 92880643 A G 유전자간 RPAP2,GFI1 0.001 2 4
    1 92911540 G A 유전자간 RPAP2,GFI1 0.004 2 4
    1 92911721 A C 유전자간 RPAP2,GFI1 0.0031 0 8
    1 92918277 C T 유전자간 RPAP2,GFI1 0.001 2 4
    1 92950920 G A 인트론 GFI1 0.008 2 4
    1 92964788 G A 유전자간 GFI1,EVI5 0.0023 1 2
    1 92977480 C T UTR3 EVI5 0.002 1 2
    1 92985213 C T 인트론 EVI5 0.001 2 4
    1 92988342 C T 인트론 EVI5 0.008 2 4
    1 92992283 G A 인트론 EVI5 0.01 2 4
    1 92999760 C T 인트론 EVI5 0.003 1 2
    1 93005149 G C 인트론 EVI5 0.003 0 4
    1 93018543 A T 인트론 EVI5 0.01 2 4
    1 93033744 C T 인트론 EVI5 0.001 2 4
    1 111400296 G A 유전자간 KCNA3,CD53 0.0014 2 4
    1 111411924 C T 유전자간 KCNA3,CD53 0.003 1 2
    1 111441850 C G UTR3 CD53 0.003 2 4
    1 111451527 C T 유전자간 CD53,LRIF1 0.008 2 4
    1 111454082 C A 유전자간 CD53,LRIF1 0.001 2 4
    1 111466506 A G 유전자간 CD53,LRIF1 0.001 2 4
    1 111525974 G A 유전자간 LRIF1,DRAM2 0.002 2 4
    1 111574573 G T 유전자간 LRIF1,DRAM2 0.0072 2 4
    1 111574594 T A 유전자간 LRIF1,DRAM2 0.005 1 2
    1 111574647 G A 유전자간 LRIF1,DRAM2 0.005 1 2
    1 111591746 T A 유전자간 LRIF1,DRAM2 0.005 1 2
    1 111601459 A G 유전자간 LRIF1,DRAM2 0.005 1 2
    1 111604748 G C 유전자간 LRIF1,DRAM2 0.005 1 2
    1 112191526 T G 인트론 RAP1A 0.001 2 4
    1 112206765 A G 인트론 RAP1A 0.0043 1 2
    1 112226517 G A 인트론 RAP1A 0.001 0 2
    1 112263324 G T 유전자간 RAP1A,FAM212B 0.003 2 4
    1 112264843 G A UTR3 FAM212B 0.001 1 2
    1 112285810 C T ncRNA_intronic FAM212B-AS1 0.004 1 2
    1 112304285 T C 인트론 DDX20 0.0043 1 2
    1 112307213 A C 인트론 DDX20 0.0043 1 2
    1 112309436 G T 엑손 DDX20 0.0 미스센스 1 2
    1 112317384 T C 유전자간 DDX20,KCND3 0.0014 1 2
    1 112381367 C T 인트론 KCND3 0.002 1 2
    1 112396571 G T ncRNA_exonic KCND3-IT1 0.001 1 2
    1 113520038 G A 유전자간 SLC16A1-AS1,LOC100996251 0.0023 1 2

    1,000 Genomes Phase 3의 데이터를 사용한 유사한 쿼리를 실행하는 데에는 약 90초가 소요되고 약 3.38TB의 데이터를 처리합니다.