이 페이지는 Cloud Translation API를 통해 번역되었습니다.

BigQuery로 간격 JOIN 실행

BigQuery를 사용하여 게놈 영역 간격이나 겹침을 나타내는 데이터에서 변이에 대한 JOIN 쿼리를 실행할 수 있습니다. 이 페이지에서는 복잡한 JOIN 쿼리를 사용하여 유전자 이름 목록을 가져오고 다음 작업을 실행하는 방법을 보여줍니다.

유전자를 겹치게 하는 희귀 SNP 찾기
전체 게놈 샘플에서 게놈 하나의 양쪽에 있는 염기쌍 100,000개 찾기

이 가이드에서는 세 가지 쿼리의 예시를 보여줍니다. 각 쿼리는 다양한 크기의 게놈 데이터에서 BigQuery가 확장하는 방법을 보여줍니다.

인라인 테이블 쿼리
특정 유전자에서 구체화된 테이블 쿼리
무작위 유전자 250개가 있는 구체화된 테이블 쿼리

이 데이터는 약 90억 개 행인 Tute Genomics 주석 테이블과 Illumina Platinum Genomes 데이터 세트에서 가져온 것입니다. 이 데이터세트에 익숙하지 않다면 다음 링크를 참조하세요.

Google Cloud 블로그의 Exploring genetic variation with Google Genomics and Tute
공개 데이터세트의 해당 섹션에 있는 Illumina Platinum Genomes

인라인 테이블 쿼리

다음 예시는 intervals라는 쿼리에 정의된 간격 테이블을 사용하고 Illumina Platinum Genomes의 변이를 포함하는 테이블에서 JOIN 쿼리를 실행하는 방법을 보여줍니다.

Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.

BigQuery 페이지로 이동
쿼리 작성을 클릭합니다.

새 쿼리 필드에서 다음 쿼리를 실행합니다.

#standardSQL
WITH
  --
  -- Retrieve the variants in this cohort, flattening by alternate bases and
  -- counting affected alleles.
  variants AS (
  SELECT
    REPLACE(reference_name, 'chr', '') as reference_name,
    start_position,
    end_position,
    reference_bases,
    alternate_bases.alt AS alt,
    (SELECT COUNTIF(gt = alt_offset+1) FROM v.call call, call.genotype gt) AS num_variant_alleles,
    (SELECT COUNTIF(gt >= 0) FROM v.call call, call.genotype gt) AS total_num_alleles
  FROM
    `bigquery-public-data.human_genome_variants.platinum_genomes_deepvariant_variants_20180823` v,
    UNNEST(v.alternate_bases) alternate_bases WITH OFFSET alt_offset ),
  --
  -- Define an inline table that uses five rows
  -- selected from silver-wall-555.TuteTable.hg19.
  intervals AS (
    SELECT * FROM UNNEST ([
    STRUCT<Gene STRING, Chr STRING, gene_start INT64, gene_end INT64, region_start INT64, region_end INT64>
    ('PRCC', '1', 156736274, 156771607, 156636274, 156871607),
    ('NTRK1', '1', 156785541, 156852640, 156685541, 156952640),
    ('PAX8', '2', 113972574, 114037496, 113872574, 114137496),
    ('FHIT', '3', 59734036, 61238131, 59634036, 61338131),
    ('PPARG', '3', 12328349, 12476853, 12228349, 12576853)
  ])),
  --
  -- JOIN the variants with the genomic intervals overlapping
  -- the genes of interest.
  --
  -- The JOIN criteria is complicated because the task is to see if
  -- an SNP overlaps an interval.  With standard SQL you can use complex
  -- JOIN predicates, including arbitrary expressions.
  gene_variants AS (
  SELECT
    reference_name,
    start_position,
    reference_bases,
    alt,
    num_variant_alleles,
    total_num_alleles
  FROM
    variants
  INNER JOIN
    intervals ON
    variants.reference_name = intervals.Chr
    AND intervals.region_start <= variants.start_position
    AND intervals.region_end >= variants.end_position )
  --
  -- And finally JOIN the variants in the regions of interest
  -- with annotations for rare variants.
SELECT DISTINCT
  Chr,
  annots.Start AS Start,
  Ref,
  annots.Alt,
  Func,
  Gene,
  PopFreqMax,
  ExonicFunc,
  num_variant_alleles,
  total_num_alleles
FROM
  `silver-wall-555.TuteTable.hg19` AS annots
INNER JOIN
  gene_variants AS vars
ON
  vars.reference_name = annots.Chr
  AND vars.start_position = annots.Start
  AND vars.reference_bases = annots.Ref
  AND vars.alt = annots.Alt
WHERE
  -- Retrieve annotations for rare variants only.
  PopFreqMax <= 0.01
ORDER BY
  Chr,
  Start;

쿼리 실행을 클릭합니다. 쿼리 실행에는 약 10초가 소요되고 약 334GB의 데이터를 처리합니다. 쿼리 결과는 관심 영역과 겹치는 집단 내에서 희귀 변이를 확인합니다.

쿼리의 결과를 보려면 다음 섹션을 펼칩니다.

쿼리 결과

Chr	시작	참조	Alt	Func	Gene	PopFreqMax	ExonicFunc	num_variant_alleles	total_num_alleles
1	156699757	T	C	인트론	RRNAD1	0.002		2	4
1	156705390	C	T	인트론	RRNAD1	8.0E-4		0	2
1	156714207	T	C	인트론	HDGF	0.003		0	6
1	156714440	A	C	인트론	HDGF	0.0068		0	12
1	156723870	C	T	유전자간	HDGF,PRCC	0.006		1	2
1	156724456	C	T	유전자간	HDGF,PRCC	0.002		2	4
1	156733988	C	T	유전자간	HDGF,PRCC	0.001		1	2
1	156742258	T	G	인트론	PRCC	0.001		2	4
1	156744826	T	G	인트론	PRCC	0.002		0	8
1	156779764	G	A	인트론	SH2D2A	0.001		2	4
1	156783454	A	C	인트론	SH2D2A	0.0014		1	2
1	156786144	C	T	인트론	NTRK1,SH2D2A	0.0031		2	4
1	156790510	A	T	인트론	NTRK1	0.002		1	2
1	156815332	A	C	인트론	INSRR,NTRK1	0.003		0	2
1	156830778	G	A	엑손	NTRK1	0.0067	미스센스	2	4
1	156842064	C	T	인트론	NTRK1	0.0014		1	2
1	156843438	C	A	엑손	NTRK1	0.0032	미스센스	1	2
1	156845773	C	T	인트론	NTRK1	0.001		2	4
1	156873318	T	C	인트론	PEAR1	0.01		4	8
1	156922740	G	A	인트론	ARHGEF11	0.007		1	2
1	156930100	C	T	인트론	ARHGEF11	0.001		2	4
2	113901230	G	A	유전자간	IL1RN,PSD4	0.0082		1	2
2	113953418	C	A	인트론	PSD4	0.001		2	4
2	113967621	G	C	유전자간	PSD4,PAX8	0.002		0	6
2	113967624	T	C	유전자간	PSD4,PAX8	0.002		0	2
2	113980967	G	A	인트론	PAX8	0.002		2	4
2	113994010	A	C	ncRNA_exonic	PAX8-AS1	0.001		0	4
2	113997745	C	A	ncRNA_exonic	PAX8-AS1	0.001		2	4
2	114061327	T	C	유전자간	PAX8,CBWD2	0.001		2	4
2	114084018	A	C	유전자간	PAX8,CBWD2	0.0045		0	4
2	114099037	G	A	유전자간	PAX8,CBWD2	0.0051		1	2
2	114105670	A	T	유전자간	PAX8,CBWD2	0.001		1	2
2	114111325	G	T	유전자간	PAX8,CBWD2	0.001		1	2
3	12265797	C	T	유전자간	SYN2,PPARG	0.0089		2	4
3	12277958	A	G	유전자간	SYN2,PPARG	0.002		1	2
3	12296019	G	A	유전자간	SYN2,PPARG	0.002		2	4
3	12316549	G	C	유전자간	SYN2,PPARG	0.002		1	2
3	12335681	T	G	인트론	PPARG	0.0092		2	4
3	12348795	T	C	인트론	PPARG	0.0014		1	2
3	12353106	T	C	인트론	PPARG	0.001		2	4
3	12403825	G	A	인트론	PPARG	0.0051		2	4
3	12404394	G	A	인트론	PPARG	0.001		1	2
3	12410289	G	A	인트론	PPARG	0.008		2	4
3	12431381	C	T	인트론	PPARG	0.0061		2	4
3	12447267	G	A	인트론	PPARG	0.0089		2	4
3	12449379	C	T	인트론	PPARG	0.0092		2	4
3	12450848	C	A	인트론	PPARG	0.0092		2	4
3	12462847	T	C	인트론	PPARG	0.002		1	2
3	12492797	G	A	유전자간	PPARG,TSEN2	0.01		1	2
3	12503201	G	A	유전자간	PPARG,TSEN2	0.0099		2	4
3	12530460	A	G	인트론	TSEN2	0.0092		2	4
3	12531167	A	G	인트론	TSEN2	0.0099		2	4
3	12557737	A	G	인트론	TSEN2	0.001		2	4
3	59636143	A	G	유전자간	C3orf67,FHIT	0.003		3	6
3	59645934	A	C	유전자간	C3orf67,FHIT	0.004		1	2
3	59646893	G	A	유전자간	C3orf67,FHIT	0.002		1	2
3	59697024	A	G	유전자간	C3orf67,FHIT	0.0072		1	2
3	59701013	G	A	유전자간	C3orf67,FHIT	0.004		2	4
3	59733945	A	G	유전자간	C3orf67,FHIT	0.001		2	4
3	59747482	C	T	인트론	FHIT	0.001		2	4
3	59750635	A	G	인트론	FHIT	0.003		1	2
3	59757776	C	T	인트론	FHIT	0.001		2	4
3	59770612	G	A	인트론	FHIT	0.001		2	4
3	59804444	G	C	인트론	FHIT	0.001		2	4
3	59819769	T	C	인트론	FHIT	0.001		2	4
3	59884396	C	T	인트론	FHIT	0.001		2	4
3	59960728	A	C	인트론	FHIT	0.01		1	2
3	59970345	G	A	인트론	FHIT	0.002		1	2
3	59972417	T	A	인트론	FHIT	0.0072		0	2
3	60104328	C	A	인트론	FHIT	0.01		2	4
3	60139062	G	A	인트론	FHIT	0.01		0	2
3	60158066	C	T	인트론	FHIT	0.001		1	2
3	60169285	C	T	인트론	FHIT	0.005		1	2
3	60216185	T	C	인트론	FHIT	0.002		1	2
3	60226380	G	A	인트론	FHIT	0.007		2	4
3	60234539	C	A	인트론	FHIT	0.002		1	2
3	60247464	A	C	인트론	FHIT	0.004		2	4
3	60269926	A	G	인트론	FHIT	0.007		2	4
3	60271228	G	T	인트론	FHIT	0.007		2	4
3	60286972	T	C	인트론	FHIT	0.001		2	4
3	60301412	C	G	인트론	FHIT	0.001		1	2
3	60312251	C	T	인트론	FHIT	0.0099		1	2
3	60317682	A	G	인트론	FHIT	0.008		1	2
3	60328557	C	G	인트론	FHIT	0.0043		2	4
3	60342562	C	T	인트론	FHIT	0.006		1	2
3	60400033	G	A	인트론	FHIT	0.004		2	4
3	60435819	C	T	인트론	FHIT	0.006		2	4
3	60435820	G	T	인트론	FHIT	0.004		1	2
3	60441288	T	C	인트론	FHIT	0.006		2	4
3	60444465	C	A	인트론	FHIT	0.01		1	2
3	60444575	C	T	인트론	FHIT	0.001		1	2
3	60450581	T	C	인트론	FHIT	0.01		1	2
3	60456571	G	A	인트론	FHIT	0.001		2	4
3	60473568	C	G	인트론	FHIT	0.001		1	2
3	60487557	T	C	인트론	FHIT	0.001		1	2
3	60559705	A	G	인트론	FHIT	0.002		2	4
3	60570764	T	C	인트론	FHIT	0.008		2	4
3	60582100	C	T	인트론	FHIT	0.001		1	2
3	60587192	G	A	인트론	FHIT	0.004		1	2
3	60599869	G	A	인트론	FHIT	0.0086		2	4
3	60603091	C	T	인트론	FHIT	0.001		2	4
3	60603250	A	T	인트론	FHIT	0.0099		1	2
3	60609831	T	G	인트론	FHIT	0.001		2	4
3	60619756	G	T	인트론	FHIT	0.0015		2	4
3	60680758	C	T	인트론	FHIT	0.0089		2	4
3	60702243	G	C	인트론	FHIT	0.001		2	4
3	60702532	A	G	인트론	FHIT	0.001		1	2
3	60714328	A	T	인트론	FHIT	0.004		1	2
3	60725297	G	A	인트론	FHIT	0.001		1	2
3	60726640	G	A	인트론	FHIT	0.01		2	4
3	60795144	A	G	인트론	FHIT	0.001		2	4
3	60807171	A	G	인트론	FHIT	0.001		1	2
3	60813868	T	C	인트론	FHIT	0.001		1	2
3	60826546	C	G	인트론	FHIT	0.0023		1	2
3	60837392	C	T	인트론	FHIT	0.001		1	2
3	60846310	A	G	인트론	FHIT	0.01		0	2
3	60850985	C	T	인트론	FHIT	0.004		1	2
3	60852559	T	C	인트론	FHIT	0.008		1	2
3	60871759	T	C	인트론	FHIT	0.004		1	2
3	60884396	C	T	인트론	FHIT	0.002		2	4
3	60897092	C	A	인트론	FHIT	0.001		2	4
3	60940759	C	T	인트론	FHIT	0.0089		1	2
3	60982595	A	G	인트론	FHIT	0.003		2	4
3	60999283	G	A	인트론	FHIT	0.001		1	2
3	61042977	A	G	인트론	FHIT	0.001		2	4
3	61043349	T	C	인트론	FHIT	0.001		2	4
3	61044789	A	C	인트론	FHIT	0.001		2	4
3	61141621	G	A	인트론	FHIT	0.003		1	2
3	61148655	G	C	인트론	FHIT	0.001		2	4
3	61170747	C	T	인트론	FHIT	0.003		1	2
3	61189473	C	G	인트론	FHIT	0.0099		1	2
3	61190425	C	T	인트론	FHIT	0.0023		2	4
3	61193853	C	T	인트론	FHIT	0.0099		0	2
3	61194793	C	T	인트론	FHIT	0.007		0	2
3	61194840	A	G	인트론	FHIT	0.0099		0	2
3	61194886	T	A	인트론	FHIT	0.0099		0	2
3	61201777	C	T	인트론	FHIT	0.001		2	4
3	61202292	T	C	인트론	FHIT	0.007		1	2
3	61232806	G	C	인트론	FHIT	0.0099		1	2
3	61232910	C	T	인트론	FHIT	0.0099		1	2
3	61235824	A	T	인트론	FHIT	0.001		2	4
3	61283810	A	C	유전자간	FHIT,PTPRG	0.0089		1	2
3	61293731	T	A	유전자간	FHIT,PTPRG	0.0089		2	4
3	61296730	C	T	유전자간	FHIT,PTPRG	0.001		1	2
3	61326341	C	T	유전자간	FHIT,PTPRG	0.004		2	4
3	61326620	T	C	유전자간	FHIT,PTPRG	0.01		1	2
3	61327649	G	C	유전자간	FHIT,PTPRG	0.001		2	4
3	61330545	G	C	유전자간	FHIT,PTPRG	0.001		2	4
3	61335803	G	A	유전자간	FHIT,PTPRG	0.001		2	4

1,000 Genomes Phase 3의 데이터를 사용한 유사한 쿼리를 실행하는 데에는 약 90초가 소요되고 약 3.38TB의 데이터를 처리합니다.

구체화된 테이블 사용

대규모 빅데이터를 사용할 때 간격 테이블을 구체화하고 새 테이블에 대해 JOIN 쿼리를 실행할 수 있습니다. 이 섹션의 나머지 부분을 계속 진행하기 전에 다음 단계를 따라 데이터 세트를 만듭니다.

콘솔에서 BigQuery 페이지를 엽니다. Google Cloud

BigQuery 페이지로 이동
탐색기 패널에서 데이터 세트를 만들 프로젝트를 선택합니다.

참고: 기본 환경은 미리보기 Cloud 콘솔입니다. 미리보기 기능 숨기기를 클릭하여 일반 안정화 버전 Cloud Console로 이동한 경우 대신 다음 단계를 수행합니다. 탐색 패널의 리소스 섹션에서 프로젝트를 선택합니다.
작업 옵션을 펼치고 데이터 세트 만들기를 클릭합니다.
데이터 세트 만들기 페이지에서 다음을 실행합니다.
1. 데이터 세트 ID에 genomics을 입력합니다.
2. 다른 기본 설정은 그대로 둡니다.
3. 데이터 세트 만들기를 클릭합니다.

특정 유전자에서 구체화된 테이블 쿼리

다음 예시는 silver-wall-555:TuteTable.hg19 테이블의 특정 유전자 목록을 포함하는 새로운 간격 테이블을 구체화하는 방법을 보여줍니다.

간격 테이블을 만들려면 다음 단계를 따르세요.

콘솔에서 BigQuery 페이지를 엽니다. Google Cloud

BigQuery 페이지로 이동
쿼리 작성을 클릭합니다.

새 쿼리 필드에서 다음 쿼리를 실행합니다. 쿼리는 silver-wall-555:TuteTable.hg19 테이블의 일부를 새 genomics.myIntervalTable 간격 테이블로 구체화합니다.

#standardSQL
CREATE TABLE `genomics.myIntervalTable` AS (
SELECT
  Gene,
  Chr,
  MIN(Start) AS gene_start,
  MAX(`End`) AS gene_end,
  MIN(Start)-100000 AS region_start,
  MAX(`End`)+100000 AS region_end
FROM
  `silver-wall-555.TuteTable.hg19`
WHERE
  Gene IN ('APC', 'ATM', 'BMPR1A', 'BRCA1', 'BRCA2', 'CDK4',
  'CDKN2A', 'CREBBP', 'EGFR', 'EP300', 'ETV6', 'FHIT', 'FLT3',
  'HRAS', 'KIT', 'MET', 'MLH1', 'NTRK1', 'PAX8', 'PDGFRA',
  'PPARG', 'PRCC', 'PRKAR1A', 'PTEN', 'RET', 'STK11',
  'TFE3', 'TGFB1', 'TGFBR2', 'TP53', 'WWOX')
GROUP BY
  Chr,
  Gene );

쿼리 실행을 클릭합니다. 쿼리는 다음 결과를 반환합니다.

This statement created a new table named PROJECT_ID:genomics.myIntervalTable.

새 쿼리 필드에서 다음 쿼리를 실행합니다.

#standardSQL
WITH
  --
  -- Retrieve the variants in this cohort, flattening by alternate bases and
  -- counting affected alleles.
  variants AS (
  SELECT
    REPLACE(reference_name, 'chr', '') as reference_name,
    start_position,
    end_position,
    reference_bases,
    alternate_bases.alt AS alt,
    (SELECT COUNTIF(gt = alt_offset+1) FROM v.call call, call.genotype gt) AS num_variant_alleles,
    (SELECT COUNTIF(gt >= 0) FROM v.call call, call.genotype gt) AS total_num_alleles
  FROM
    `bigquery-public-data.human_genome_variants.platinum_genomes_deepvariant_variants_20180823` v,
    UNNEST(v.alternate_bases) alternate_bases WITH OFFSET alt_offset ),
  --
  -- JOIN the variants with the genomic intervals overlapping
  -- the genes of interest.
  --
  -- The JOIN criteria is complicated because the task is to see if
  -- an SNP overlaps an interval.  With standard SQL you can use complex
  -- JOIN predicates, including arbitrary expressions.
  gene_variants AS (
  SELECT
    reference_name,
    start_position,
    reference_bases,
    alt,
    num_variant_alleles,
    total_num_alleles
  FROM
    variants
  INNER JOIN
    `genomics.myIntervalTable` AS intervals ON
    variants.reference_name = intervals.Chr
    AND intervals.region_start <= variants.start_position
    AND intervals.region_end >= variants.end_position )
  --
  -- And finally JOIN the variants in the regions of interest
  -- with annotations for rare variants.
SELECT DISTINCT
  Chr,
  annots.Start AS Start,
  Ref,
  annots.Alt,
  Func,
  Gene,
  PopFreqMax,
  ExonicFunc,
  num_variant_alleles,
  total_num_alleles
FROM
  `silver-wall-555.TuteTable.hg19` AS annots
INNER JOIN
  gene_variants AS vars
ON
  vars.reference_name = annots.Chr
  AND vars.start_position = annots.Start
  AND vars.reference_bases = annots.Ref
  AND vars.alt = annots.Alt
WHERE
  -- Retrieve annotations for rare variants only.
  PopFreqMax <= 0.01
ORDER BY
  Chr,
  Start;

쿼리의 결과를 보려면 다음 섹션을 펼칩니다.

쿼리 결과

Chr	시작	참조	Alt	Func	Gene	PopFreqMax	ExonicFunc	num_variant_alleles	total_num_alleles
1	156699757	T	C	인트론	RRNAD1	0.002		2	4
1	156705390	C	T	인트론	RRNAD1	8.0E-4		0	2
1	156714207	T	C	인트론	HDGF	0.003		0	6
1	156714440	A	C	인트론	HDGF	0.0068		0	12
1	156723870	C	T	유전자간	HDGF,PRCC	0.006		1	2
1	156724456	C	T	유전자간	HDGF,PRCC	0.002		2	4
1	156733988	C	T	유전자간	HDGF,PRCC	0.001		1	2
1	156742258	T	G	인트론	PRCC	0.001		2	4
1	156744826	T	G	인트론	PRCC	0.002		0	8
1	156779764	G	A	인트론	SH2D2A	0.001		2	4
1	156783454	A	C	인트론	SH2D2A	0.0014		1	2
1	156786144	C	T	인트론	NTRK1,SH2D2A	0.0031		2	4
1	156790510	A	T	인트론	NTRK1	0.002		1	2
1	156815332	A	C	인트론	INSRR,NTRK1	0.003		0	2
1	156830778	G	A	엑손	NTRK1	0.0067	미스센스	2	4
1	156842064	C	T	인트론	NTRK1	0.0014		1	2
1	156843438	C	A	엑손	NTRK1	0.0032	미스센스	1	2
1	156845773	C	T	인트론	NTRK1	0.001		2	4
1	156873318	T	C	인트론	PEAR1	0.01		4	8
1	156922740	G	A	인트론	ARHGEF11	0.007		1	2
1	156930100	C	T	인트론	ARHGEF11	0.001		2	4
2	113901230	G	A	유전자간	IL1RN,PSD4	0.0082		1	2
2	113953418	C	A	인트론	PSD4	0.001		2	4
2	113967621	G	C	유전자간	PSD4,PAX8	0.002		0	6
2	113967624	T	C	유전자간	PSD4,PAX8	0.002		0	2
2	113980967	G	A	인트론	PAX8	0.002		2	4
2	113994010	A	C	ncRNA_exonic	PAX8-AS1	0.001		0	4
2	113997745	C	A	ncRNA_exonic	PAX8-AS1	0.001		2	4
2	114061327	T	C	유전자간	PAX8,CBWD2	0.001		2	4
2	114084018	A	C	유전자간	PAX8,CBWD2	0.0045		0	4
2	114099037	G	A	유전자간	PAX8,CBWD2	0.0051		1	2
2	114105670	A	T	유전자간	PAX8,CBWD2	0.001		1	2
2	114111325	G	T	유전자간	PAX8,CBWD2	0.001		1	2
3	12265797	C	T	유전자간	SYN2,PPARG	0.0089		2	4
3	12277958	A	G	유전자간	SYN2,PPARG	0.002		1	2
3	12296019	G	A	유전자간	SYN2,PPARG	0.002		2	4
3	12316549	G	C	유전자간	SYN2,PPARG	0.002		1	2
3	12335681	T	G	인트론	PPARG	0.0092		2	4
3	12348795	T	C	인트론	PPARG	0.0014		1	2
3	12353106	T	C	인트론	PPARG	0.001		2	4
3	12403825	G	A	인트론	PPARG	0.0051		2	4
3	12404394	G	A	인트론	PPARG	0.001		1	2
3	12410289	G	A	인트론	PPARG	0.008		2	4
3	12431381	C	T	인트론	PPARG	0.0061		2	4
3	12447267	G	A	인트론	PPARG	0.0089		2	4
3	12449379	C	T	인트론	PPARG	0.0092		2	4
3	12450848	C	A	인트론	PPARG	0.0092		2	4
3	12462847	T	C	인트론	PPARG	0.002		1	2
3	12492797	G	A	유전자간	PPARG,TSEN2	0.01		1	2
3	12503201	G	A	유전자간	PPARG,TSEN2	0.0099		2	4
3	12530460	A	G	인트론	TSEN2	0.0092		2	4
3	12531167	A	G	인트론	TSEN2	0.0099		2	4
3	12557737	A	G	인트론	TSEN2	0.001		2	4
3	59636143	A	G	유전자간	C3orf67,FHIT	0.003		3	6
3	59645934	A	C	유전자간	C3orf67,FHIT	0.004		1	2
3	59646893	G	A	유전자간	C3orf67,FHIT	0.002		1	2
3	59697024	A	G	유전자간	C3orf67,FHIT	0.0072		1	2
3	59701013	G	A	유전자간	C3orf67,FHIT	0.004		2	4
3	59733945	A	G	유전자간	C3orf67,FHIT	0.001		2	4
3	59747482	C	T	인트론	FHIT	0.001		2	4
3	59750635	A	G	인트론	FHIT	0.003		1	2
3	59757776	C	T	인트론	FHIT	0.001		2	4
3	59770612	G	A	인트론	FHIT	0.001		2	4
3	59804444	G	C	인트론	FHIT	0.001		2	4
3	59819769	T	C	인트론	FHIT	0.001		2	4
3	59884396	C	T	인트론	FHIT	0.001		2	4
3	59960728	A	C	인트론	FHIT	0.01		1	2
3	59970345	G	A	인트론	FHIT	0.002		1	2
3	59972417	T	A	인트론	FHIT	0.0072		0	2
3	60104328	C	A	인트론	FHIT	0.01		2	4
3	60139062	G	A	인트론	FHIT	0.01		0	2
3	60158066	C	T	인트론	FHIT	0.001		1	2
3	60169285	C	T	인트론	FHIT	0.005		1	2
3	60216185	T	C	인트론	FHIT	0.002		1	2
3	60226380	G	A	인트론	FHIT	0.007		2	4
3	60234539	C	A	인트론	FHIT	0.002		1	2
3	60247464	A	C	인트론	FHIT	0.004		2	4
3	60269926	A	G	인트론	FHIT	0.007		2	4
3	60271228	G	T	인트론	FHIT	0.007		2	4
3	60286972	T	C	인트론	FHIT	0.001		2	4
3	60301412	C	G	인트론	FHIT	0.001		1	2
3	60312251	C	T	인트론	FHIT	0.0099		1	2
3	60317682	A	G	인트론	FHIT	0.008		1	2
3	60328557	C	G	인트론	FHIT	0.0043		2	4
3	60342562	C	T	인트론	FHIT	0.006		1	2
3	60400033	G	A	인트론	FHIT	0.004		2	4
3	60435819	C	T	인트론	FHIT	0.006		2	4
3	60435820	G	T	인트론	FHIT	0.004		1	2
3	60441288	T	C	인트론	FHIT	0.006		2	4
3	60444465	C	A	인트론	FHIT	0.01		1	2
3	60444575	C	T	인트론	FHIT	0.001		1	2
3	60450581	T	C	인트론	FHIT	0.01		1	2
3	60456571	G	A	인트론	FHIT	0.001		2	4
3	60473568	C	G	인트론	FHIT	0.001		1	2
3	60487557	T	C	인트론	FHIT	0.001		1	2
3	60559705	A	G	인트론	FHIT	0.002		2	4
3	60570764	T	C	인트론	FHIT	0.008		2	4
3	60582100	C	T	인트론	FHIT	0.001		1	2
3	60587192	G	A	인트론	FHIT	0.004		1	2
3	60599869	G	A	인트론	FHIT	0.0086		2	4
3	60603091	C	T	인트론	FHIT	0.001		2	4
3	60603250	A	T	인트론	FHIT	0.0099		1	2
3	60609831	T	G	인트론	FHIT	0.001		2	4
3	60619756	G	T	인트론	FHIT	0.0015		2	4
3	60680758	C	T	인트론	FHIT	0.0089		2	4
3	60702243	G	C	인트론	FHIT	0.001		2	4
3	60702532	A	G	인트론	FHIT	0.001		1	2
3	60714328	A	T	인트론	FHIT	0.004		1	2
3	60725297	G	A	인트론	FHIT	0.001		1	2
3	60726640	G	A	인트론	FHIT	0.01		2	4
3	60795144	A	G	인트론	FHIT	0.001		2	4
3	60807171	A	G	인트론	FHIT	0.001		1	2
3	60813868	T	C	인트론	FHIT	0.001		1	2
3	60826546	C	G	인트론	FHIT	0.0023		1	2
3	60837392	C	T	인트론	FHIT	0.001		1	2
3	60846310	A	G	인트론	FHIT	0.01		0	2
3	60850985	C	T	인트론	FHIT	0.004		1	2
3	60852559	T	C	인트론	FHIT	0.008		1	2
3	60871759	T	C	인트론	FHIT	0.004		1	2
3	60884396	C	T	인트론	FHIT	0.002		2	4
3	60897092	C	A	인트론	FHIT	0.001		2	4
3	60940759	C	T	인트론	FHIT	0.0089		1	2
3	60982595	A	G	인트론	FHIT	0.003		2	4
3	60999283	G	A	인트론	FHIT	0.001		1	2
3	61042977	A	G	인트론	FHIT	0.001		2	4
3	61043349	T	C	인트론	FHIT	0.001		2	4
3	61044789	A	C	인트론	FHIT	0.001		2	4
3	61141621	G	A	인트론	FHIT	0.003		1	2
3	61148655	G	C	인트론	FHIT	0.001		2	4
3	61170747	C	T	인트론	FHIT	0.003		1	2
3	61189473	C	G	인트론	FHIT	0.0099		1	2
3	61190425	C	T	인트론	FHIT	0.0023		2	4
3	61193853	C	T	인트론	FHIT	0.0099		0	2
3	61194793	C	T	인트론	FHIT	0.007		0	2
3	61194840	A	G	인트론	FHIT	0.0099		0	2
3	61194886	T	A	인트론	FHIT	0.0099		0	2
3	61201777	C	T	인트론	FHIT	0.001		2	4
3	61202292	T	C	인트론	FHIT	0.007		1	2
3	61232806	G	C	인트론	FHIT	0.0099		1	2
3	61232910	C	T	인트론	FHIT	0.0099		1	2
3	61235824	A	T	인트론	FHIT	0.001		2	4
3	61283810	A	C	유전자간	FHIT,PTPRG	0.0089		1	2
3	61293731	T	A	유전자간	FHIT,PTPRG	0.0089		2	4
3	61296730	C	T	유전자간	FHIT,PTPRG	0.001		1	2
3	61326341	C	T	유전자간	FHIT,PTPRG	0.004		2	4
3	61326620	T	C	유전자간	FHIT,PTPRG	0.01		1	2
3	61327649	G	C	유전자간	FHIT,PTPRG	0.001		2	4
3	61330545	G	C	유전자간	FHIT,PTPRG	0.001		2	4
3	61335803	G	A	유전자간	FHIT,PTPRG	0.001		2	4

1,000 Genomes Phase 3의 데이터를 사용한 유사한 쿼리를 실행하는 데에는 약 90초가 소요되고 약 3.38TB의 데이터를 처리합니다.

무작위 유전자 250개가 있는 구체화된 테이블 쿼리

다음 예시는 silver-wall-555:TuteTable.hg19 테이블에서 무작위로 선택한 유전자 250개를 포함하는 구체화된 테이블에서 간격 JOIN을 실행하는 방법을 보여줍니다.

간격 테이블을 만들려면 다음 단계를 따르세요.

콘솔에서 BigQuery 페이지를 엽니다. Google Cloud

BigQuery 페이지로 이동
쿼리 작성을 클릭합니다.

새 쿼리 필드에서 silver-wall-555:TuteTable.hg19 테이블의 일부를 새 genomics.randomGenesIntervalTable 간격 테이블로 구체화하는 다음 쿼리를 실행합니다.

#standardSQL
CREATE TABLE `genomics.randomGenesIntervalTable` AS (
SELECT
  Gene,
  Chr,
  MIN(Start) AS gene_start,
  MAX(`End`) AS gene_end,
  MIN(Start) - 100000 AS region_start,
  MAX(`End`) + 100000 AS region_end
FROM
  `silver-wall-555.TuteTable.hg19`
WHERE
  Gene IN (SELECT Gene FROM `silver-wall-555.TuteTable.hg19` GROUP BY Gene LIMIT 250)
GROUP BY
  Chr,
  Gene );

쿼리 실행을 클릭합니다. 쿼리는 다음 결과를 반환합니다.

This statement created a new table named PROJECT_ID:genomics.randomGenesIntervalTable.

새 쿼리 필드에서 다음 쿼리를 실행합니다.

#standardSQL
WITH
  --
  -- Retrieve the variants in this cohort, flattening by alternate bases and
  -- counting affected alleles.
  variants AS (
  SELECT
    REPLACE(reference_name, 'chr', '') as reference_name,
    start_position,
    end_position,
    reference_bases,
    alternate_bases.alt AS alt,
    (SELECT COUNTIF(gt = alt_offset+1) FROM v.call call, call.genotype gt) AS num_variant_alleles,
    (SELECT COUNTIF(gt >= 0) FROM v.call call, call.genotype gt) AS total_num_alleles
  FROM
    `bigquery-public-data.human_genome_variants.platinum_genomes_deepvariant_variants_20180823` v,
    UNNEST(v.alternate_bases) alternate_bases WITH OFFSET alt_offset ),
  --
  -- JOIN the variants with the genomic intervals overlapping
  -- the genes of interest.
  --
  -- The JOIN criteria is complicated because the task is to see if
  -- an SNP overlaps an interval.  With standard SQL you can use complex
  -- JOIN predicates, including arbitrary expressions.
  gene_variants AS (
  SELECT
    reference_name,
    start_position,
    reference_bases,
    alt,
    num_variant_alleles,
    total_num_alleles
  FROM
    variants
  INNER JOIN
    `genomics.randomGenesIntervalTable` AS intervals ON
    variants.reference_name = intervals.Chr
    AND intervals.region_start <= variants.start_position
    AND intervals.region_end >= variants.end_position )
  --
  -- And finally JOIN the variants in the regions of interest
  -- with annotations for rare variants.
SELECT DISTINCT
  Chr,
  annots.Start AS Start,
  Ref,
  annots.Alt,
  Func,
  Gene,
  PopFreqMax,
  ExonicFunc,
  num_variant_alleles,
  total_num_alleles
FROM
  `silver-wall-555.TuteTable.hg19` AS annots
INNER JOIN
  gene_variants AS vars
ON
  vars.reference_name = annots.Chr
  AND vars.start_position = annots.Start
  AND vars.reference_bases = annots.Ref
  AND vars.alt = annots.Alt
WHERE
  -- Retrieve annotations for rare variants only.
  PopFreqMax <= 0.01
ORDER BY
  Chr,
  Start;

쿼리의 잘린 결과를 보려면 다음 섹션을 펼칩니다.

쿼리 결과

Chr	시작	참조	Alt	Func	Gene	PopFreqMax	ExonicFunc	num_variant_alleles	total_num_alleles
1	2925355	C	A	유전자간	TTC34,ACTRT2	0.001		2	4
1	2933170	G	A	유전자간	TTC34,ACTRT2	0.0083		0	4
1	2944477	G	A	유전자간	ACTRT2,LINC00982	0.003		4	6
1	2967591	A	T	유전자간	ACTRT2,LINC00982	0.0092		1	2
1	2975255	T	C	다운스트림	LINC00982	0.0082		1	2
1	2977223	C	T	ncRNA_intronic	LINC00982	0.0072		1	2
1	2978803	G	C	ncRNA_exonic	LINC00982	0.002		4	6
1	3006466	G	A	인트론	PRDM16	0.0098		1	2
1	3011333	G	T	인트론	PRDM16	0.004		1	2
1	3019659	C	T	인트론	PRDM16	0.0031		1	2
1	3036896	G	A	인트론	PRDM16	0.001		1	2
1	3037388	G	A	인트론	PRDM16	0.002		2	4
1	3041250	T	G	인트론	PRDM16	0.006		2	4
1	3042502	A	T	인트론	PRDM16	0.003		4	6
1	3053713	A	C	인트론	PRDM16	0.002		1	2
1	3063109	C	T	인트론	PRDM16	0.002		0	2
1	3063593	T	C	인트론	PRDM16	0.003		1	2
1	3076439	C	T	인트론	PRDM16	0.001		2	4
1	3078960	G	A	인트론	PRDM16	0.007		2	4
1	3084268	A	C	인트론	PRDM16	0.005		0	2
1	3084492	T	C	인트론	PRDM16	0.0015		0	2
1	3084786	T	C	인트론	PRDM16	0.0015		0	4
1	3111119	G	A	인트론	PRDM16	0.003		1	2
1	3111643	C	T	인트론	PRDM16	0.0041		1	2
1	3114807	G	A	인트론	PRDM16	0.0041		1	2
1	3165530	C	T	인트론	PRDM16	0.0089		1	2
1	3169325	G	A	인트론	PRDM16	0.008		2	4
1	3179623	C	T	인트론	PRDM16	0.003		2	4
1	3181097	C	T	인트론	PRDM16	0.001		2	4
1	3194000	G	C	인트론	PRDM16	0.005		2	4
1	3195769	T	C	인트론	PRDM16	0.002		1	2
1	3197351	C	T	인트론	PRDM16	0.0061		1	2
1	3224100	C	A	인트론	PRDM16	0.003		2	4
1	3228644	G	T	인트론	PRDM16	0.001		2	4
1	3234045	G	A	인트론	PRDM16	0.002		1	2
1	3235971	G	A	인트론	PRDM16	0.0089		1	2
1	3274115	C	T	인트론	PRDM16	0.001		2	4
1	3291388	G	A	인트론	PRDM16	0.002		2	4
1	3295658	A	C	인트론	PRDM16	0.0068		0	6
1	3295937	A	C	인트론	PRDM16	0.0068		0	2
1	3296205	T	C	인트론	PRDM16	0.0083		0	2
1	3315690	G	A	인트론	PRDM16	0.001		2	4
1	3329212	G	A	엑손	PRDM16	0.0031	미스센스	1	2
1	3331787	C	T	인트론	PRDM16	0.0099		1	2
1	3370316	G	C	업스트림	ARHGEF16	0.001		2	4
1	3379560	A	G	인트론	ARHGEF16	0.0051		0	6
1	3391174	C	T	인트론	ARHGEF16	0.006		1	2
1	3413873	G	A	엑손	MEGF6	0.003	미스센스	1	2
1	3416272	C	T	엑손	MEGF6	0.0072	무음	2	4
1	3417122	G	A	인트론	MEGF6	0.0038		2	4
1	3436219	G	A	인트론	MEGF6	0.0046		2	4
1	12907456	A	G	엑손	HNRNPCL1,LOC649330	0.006	미스센스	0	10
1	12907518	C	A	엑손	HNRNPCL1,LOC649330	1.0E-4	미스센스	0	10
1	12908499	G	C	인트론	HNRNPCL1	0.0031		0	8
1	12931660	G	C	유전자간	PRAMEF2,PRAMEF4	0.004		1	2
1	12937721	G	T	유전자간	PRAMEF2,PRAMEF4	0.0038		0	2
1	12940827	G	T	인트론	PRAMEF4	0.007		2	4
1	12942759	T	G	인트론	PRAMEF4	0.0076		0	10
1	12942805	T	G	인트론	PRAMEF4	0.0061		0	12
1	12942812	G	A	인트론	PRAMEF4	0.0061		0	12
1	12942875	A	G	인트론	PRAMEF4	0.0068		0	6
1	12942912	G	C	인트론	PRAMEF4	2.0E-4		0	2
1	12942937	A	T	엑손	PRAMEF4	0.0029	미스센스	0	2
1	12942940	T	G	엑손	PRAMEF4	0.0038	미스센스	0	2
1	12943940	T	C	인트론	PRAMEF4	0.0015		0	12
1	12944138	A	G	인트론	PRAMEF4	8.0E-4		0	12
1	12944234	G	A	인트론	PRAMEF4	0.0015		0	12
1	12944589	T	G	인트론	PRAMEF4	0.003		0	4
1	12944845	A	C	인트론	PRAMEF4	0.0014		0	6
1	12946439	T	C	업스트림	PRAMEF4	0.0029		0	10
1	12946833	G	A	업스트림	PRAMEF4	0.001		0	8
1	12946835	T	A	업스트림	PRAMEF4	0.004		0	12
1	12995204	G	T	유전자간	PRAMEF8,PRAMEF6	0.003		1	4
1	12997638	T	C	다운스트림	PRAMEF6,PRAMEF9	0.003		2	4
1	13007841	G	C	업스트림	PRAMEF6	0.0043		0	8
1	13019228	T	A	유전자간	PRAMEF6,LOC391003	0.0015		0	10
1	13038503	G	A	UTR3	LOC391003	0.0072		1	2
1	13051650	C	T	유전자간	LOC391003,PRAMEF5	0.002		2	4
1	15706063	G	A	인트론	FHAD1	0.0029		1	2
1	15713292	C	T	인트론	FHAD1	0.001		1	2
1	15766541	G	C	인트론	CTRC	0.001		1	2
1	15782601	T	C	업스트림	CELA2A	0.0038		1	2
1	15828125	G	A	인트론	CASP9	0.0014		2	4
1	15831037	G	A	인트론	CASP9	0.0099		1	2
1	15840513	T	G	인트론	CASP9	0.0043		2	4
1	15868742	G	A	인트론	DNAJC16	0.001		1	2
1	15876704	G	A	인트론	DNAJC16	0.001		1	2
1	15900342	C	A	인트론	AGMAT	0.001		1	2
1	15906257	T	C	인트론	AGMAT	8.0E-4		1	2
1	15911897	A	G	업스트림	AGMAT	0.0043		2	4
1	22764178	C	T	유전자간	WNT4,ZBTB40	0.001		2	4
1	22791939	C	T	인트론	ZBTB40	0.0089		2	4
1	22874394	C	G	유전자간	ZBTB40,EPHA8	0.007		1	2
1	22875103	C	G	유전자간	ZBTB40,EPHA8	0.007		1	2
1	22906403	C	T	인트론	EPHA8	0.008		2	4
1	22912956	G	A	인트론	EPHA8	0.001		1	2
1	22917007	C	T	인트론	EPHA8	0.001		2	4
1	22927240	G	A	엑손	EPHA8	0.0013	미스센스	2	4
1	22932265	G	A	유전자간	EPHA8,MIR6127	0.0089		2	4
1	22944057	C	T	유전자간	EPHA8,MIR6127	0.0089		2	4
1	22978799	A	G	업스트림	C1QB	0.0099		2	4
1	35170588	C	T	유전자간	C1orf94,GJB5	0.01		1	2
1	35172426	C	T	유전자간	C1orf94,GJB5	0.008		1	2
1	35172447	G	A	유전자간	C1orf94,GJB5	0.001		1	2
1	35175302	C	T	유전자간	C1orf94,GJB5	0.008		1	2
1	35177410	A	T	유전자간	C1orf94,GJB5	0.001		1	2
1	35178768	C	T	유전자간	C1orf94,GJB5	0.0014		2	4
1	35179362	G	A	유전자간	C1orf94,GJB5	0.0014		2	4
1	35186166	G	A	유전자간	C1orf94,GJB5	0.0099		2	4
1	35186520	A	C	유전자간	C1orf94,GJB5	0.002		2	4
1	35196361	G	A	유전자간	C1orf94,GJB5	0.0099		2	4
1	35223545	C	T	엑손	GJB5	0.001	무음	1	2
1	35224029	G	A	UTR3	GJB5	0.003		1	2
1	35227895	T	C	UTR3	GJB4	5.0E-4		1	2
1	35230455	G	T	유전자간	GJB4,GJB3	0.0043		1	2
1	35232954	T	C	유전자간	GJB4,GJB3	0.003		1	2
1	35237986	G	A	유전자간	GJB4,GJB3	0.0014		1	2
1	35245522	C	T	유전자간	GJB4,GJB3	0.001		1	2
1	35256979	C	T	유전자간	GJB3,GJA4	0.002		2	4
1	35263872	C	T	유전자간	GJA4,SMIM12	5.0E-4		2	4
1	35323895	A	C	인트론	SMIM12	0.0027		2	4
1	35369676	G	A	인트론	DLGAP3	0.007		2	4
1	35371634	T	A	업스트림	DLGAP3	0.0015		0	4
1	39253519	G	A	유전자간	LINC01343,RRAGC	0.005		1	2
1	39288829	G	A	유전자간	LINC01343,RRAGC	0.0051		1	2
1	39289832	A	C	유전자간	LINC01343,RRAGC	0.002		0	2
1	39312638	G	A	인트론	RRAGC	0.0038		2	4
1	39361372	G	A	인트론	RHBDL2	0.005		1	2
1	39363826	T	G	인트론	RHBDL2	0.0029		1	2
1	39367555	T	C	인트론	RHBDL2	0.007		2	4
1	39369531	T	C	인트론	RHBDL2	0.001		2	4
1	39370202	T	C	인트론	RHBDL2	0.01		1	2
1	39449101	A	G	유전자간	RHBDL2,AKIRIN1	0.001		2	4
1	39475057	G	A	유전자간	AKIRIN1,NDUFS5	0.01		1	2
1	39485016	C	T	유전자간	AKIRIN1,NDUFS5	0.001		2	4
1	39488137	A	G	유전자간	AKIRIN1,NDUFS5	0.001		2	4
1	39499212	A	C	인트론	NDUFS5	0.001		0	2
1	39500605	C	G	다운스트림	NDUFS5	0.002		0	10
1	46813814	T	C	인트론	NSUN4	0.0014		1	2
1	46817258	A	G	인트론	NSUN4	0.005		0	2
1	46843158	T	C	유전자간	NSUN4,FAAH	0.001		1	2
1	46933509	A	G	유전자간	LINC01398,DMBX1	0.002		1	2
1	46935021	G	A	유전자간	LINC01398,DMBX1	0.004		2	4
1	46939253	T	A	유전자간	LINC01398,DMBX1	0.004		2	4
1	46951788	C	A	유전자간	LINC01398,DMBX1	0.002		2	4
1	46980864	G	C	다운스트림	DMBX1	0.003		1	2
1	46989657	T	C	유전자간	DMBX1,MKNK1-AS1	0.007		1	2
1	46994678	C	T	유전자간	DMBX1,MKNK1-AS1	0.002		1	2
1	46999438	T	C	유전자간	DMBX1,MKNK1-AS1	0.002		1	2
1	92761505	A	G	인트론	GLMN	0.001		2	4
1	92764270	G	C	인트론	GLMN	0.001		2	4
1	92802210	G	A	인트론	RPAP2	0.0072		1	2
1	92820663	T	A	인트론	RPAP2	0.0058		1	2
1	92820664	G	T	인트론	RPAP2	0.0058		1	2
1	92820953	G	A	인트론	RPAP2	0.007		2	4
1	92824766	A	G	인트론	RPAP2	0.0058		1	2
1	92849183	C	A	인트론	RPAP2	0.01		2	4
1	92850696	C	G	인트론	RPAP2	0.0023		1	2
1	92861357	T	C	유전자간	RPAP2,GFI1	0.01		2	4
1	92877460	C	G	유전자간	RPAP2,GFI1	0.002		1	2
1	92880643	A	G	유전자간	RPAP2,GFI1	0.001		2	4
1	92911540	G	A	유전자간	RPAP2,GFI1	0.004		2	4
1	92911721	A	C	유전자간	RPAP2,GFI1	0.0031		0	8
1	92918277	C	T	유전자간	RPAP2,GFI1	0.001		2	4
1	92950920	G	A	인트론	GFI1	0.008		2	4
1	92964788	G	A	유전자간	GFI1,EVI5	0.0023		1	2
1	92977480	C	T	UTR3	EVI5	0.002		1	2
1	92985213	C	T	인트론	EVI5	0.001		2	4
1	92988342	C	T	인트론	EVI5	0.008		2	4
1	92992283	G	A	인트론	EVI5	0.01		2	4
1	92999760	C	T	인트론	EVI5	0.003		1	2
1	93005149	G	C	인트론	EVI5	0.003		0	4
1	93018543	A	T	인트론	EVI5	0.01		2	4
1	93033744	C	T	인트론	EVI5	0.001		2	4
1	111400296	G	A	유전자간	KCNA3,CD53	0.0014		2	4
1	111411924	C	T	유전자간	KCNA3,CD53	0.003		1	2
1	111441850	C	G	UTR3	CD53	0.003		2	4
1	111451527	C	T	유전자간	CD53,LRIF1	0.008		2	4
1	111454082	C	A	유전자간	CD53,LRIF1	0.001		2	4
1	111466506	A	G	유전자간	CD53,LRIF1	0.001		2	4
1	111525974	G	A	유전자간	LRIF1,DRAM2	0.002		2	4
1	111574573	G	T	유전자간	LRIF1,DRAM2	0.0072		2	4
1	111574594	T	A	유전자간	LRIF1,DRAM2	0.005		1	2
1	111574647	G	A	유전자간	LRIF1,DRAM2	0.005		1	2
1	111591746	T	A	유전자간	LRIF1,DRAM2	0.005		1	2
1	111601459	A	G	유전자간	LRIF1,DRAM2	0.005		1	2
1	111604748	G	C	유전자간	LRIF1,DRAM2	0.005		1	2
1	112191526	T	G	인트론	RAP1A	0.001		2	4
1	112206765	A	G	인트론	RAP1A	0.0043		1	2
1	112226517	G	A	인트론	RAP1A	0.001		0	2
1	112263324	G	T	유전자간	RAP1A,FAM212B	0.003		2	4
1	112264843	G	A	UTR3	FAM212B	0.001		1	2
1	112285810	C	T	ncRNA_intronic	FAM212B-AS1	0.004		1	2
1	112304285	T	C	인트론	DDX20	0.0043		1	2
1	112307213	A	C	인트론	DDX20	0.0043		1	2
1	112309436	G	T	엑손	DDX20	0.0	미스센스	1	2
1	112317384	T	C	유전자간	DDX20,KCND3	0.0014		1	2
1	112381367	C	T	인트론	KCND3	0.002		1	2
1	112396571	G	T	ncRNA_exonic	KCND3-IT1	0.001		1	2
1	113520038	G	A	유전자간	SLC16A1-AS1,LOC100996251	0.0023		1	2

1,000 Genomes Phase 3의 데이터를 사용한 유사한 쿼리를 실행하는 데에는 약 90초가 소요되고 약 3.38TB의 데이터를 처리합니다.

BigQuery로 간격 JOIN 실행 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

인라인 테이블 쿼리

쿼리 결과

구체화된 테이블 사용

특정 유전자에서 구체화된 테이블 쿼리

쿼리 결과

무작위 유전자 250개가 있는 구체화된 테이블 쿼리

쿼리 결과

BigQuery로 간격 JOIN 실행