공개 데이터세트

Google Cloud Platform에 호스팅된 다양한 공개 데이터세트 액세스 및 분석

무료로 사용해 보기

데이터 액세스 및 분석

Google Cloud Platform의 공개 데이터세트를 사용하면 사용자가 클라우드의 데이터에 쉽게 액세스하고 분석할 수 있습니다. 이 데이터세트는 무료로 호스팅되며, 오픈소스 Apache Spark부터 최신 Google 기술(예: Google BigQuery, Google Cloud Dataflow)까지 다양한 데이터 웨어하우스 및 분석 소프트웨어를 통해 데이터세트에 액세스할 수 있습니다. 구조화된 게놈 데이터나 백과사전 데이터부터 구조화되지 않은 기후 데이터에 이르기까지 공개 데이터세트는 신규 사용자를 위해 빅데이터 및 데이터 분석 환경을, 숙련된 연구자에게는 강력한 저장소를 제공합니다. 애플리케이션과 통합하여 사용자에게 유용한 정보를 제공할 수도 있습니다. 사용 사례에 상관없이 이러한 데이터세트는 GCP에서 무료로 사용할 수 있습니다.

데이터 액세스 및 분석

Google BigQuery 공개 데이터세트

BigQuery는 사용자에게 익숙한 SQL로 분석 가능한 여러 공개 데이터세트를 호스팅합니다. 사용자는 이 데이터를 BigQuery 웹 UI로 직접 쿼리하거나 BigQuery REST API를 사용해 프로그래매틱으로 쿼리할 수 있습니다. 데이터세트는 무료로 호스팅되며 누구나 액세스할 수 있습니다. 한 달에 최대 1TB까지 무료로 데이터를 쿼리할 수 있습니다. 쿼리 가격 책정 세부정보에 따라 무료 할당량을 초과할 때만 쿼리 요금이 청구됩니다.

신용카드 없이 매월 테라바이트 단위의 Google BigQuery 쿼리를 실행하는 방법 동영상
BigQuery 공개 데이터세트 쿼리

Google Genomics 공개 데이터세트

Google은 Genomics 커뮤니티와 공동작업하여 1000 Genomes Project 등 엄선된 게놈 데이터를 공개 리소스로 호스팅하고 있습니다. Google Genomics API, BigQuery 웹 인터페이스, 오픈소스 예를 통해 데이터세트에 액세스할 수 있습니다.

Google Genomics 공개 데이터세트

Geo Imagery 데이터세트

Google Cloud Storage에서 Landsat 및 Sentinel 위성 이미지 데이터세트는 물론 NEXRAD Doppler 레이더 데이터세트를 사용할 수 있습니다. 데이터 저장 비용 또는 대용량 데이터세트를 다운로드하는 데 필요한 시간과 비용을 걱정할 필요 없이 GCP를 사용해 분석 작업을 수행하고 신제품을 개발할 수 있습니다.

Google Cloud Storage에서 호스팅되는 이러한 데이터세트 이외에도 Earth Engine에서 다양한 표준 지구 과학 래스터 데이터세트를 제공하고 있습니다. Earth Engine은 복잡한 지리정보 워크플로를 쉽고 빠르게 개발하도록 설계된 편리한 웹 기반 코드 편집기입니다.

Geo Imagery 데이터세트

BigQuery 데이터세트

Bay Area Bike Share Trips
이 데이터에는 2013년 8월부터 현재까지의 모든 Bay Area Bike Share Trip이 포함되어 있으며 매일 업데이트됩니다. 자세히 알아보기
GDELT Book Corpus
Internet Archive(130만 권) 및 HathiTrust(220만 권) 등 전체 영어 공개 도메인 컬렉션을 아우르는 데이터세트로서 무려 200년 전 자료까지 포함한 디지털화된 서적 350만 권으로 이루어져 있습니다. 자세히 알아보기
GitHub Data
이 공개 데이터세트에는 오픈소스 GitHub 저장소 280만 개 이상의 GitHub 활동 데이터, 1억 4,500만 개 이상의 고유 커밋, 20억 개 이상의 다양한 파일 경로, 파일 1억 6,300만 개의 최신 수정 버전 콘텐츠가 포함되어 있습니다. 자세히 알아보기
IRS Form 990 Data
미국 국세청(Internal Revenue Service, IRS)에서 990 양식을 사용해 수집한 미국 내 비영리/면세 기관의 금융 정보가 포함된 데이터세트입니다. 자세히 알아보기
Stack Overflow Data
이 공개 데이터세트에는 게시물, 투표, 태그, 배지 등 Stack Overflow 콘텐츠의 보관 파일이 포함되어 있습니다. 자세히 알아보기
San Francisco Street Trees Data
이 데이터에는 샌프란시스코 토목공공사업부(San Francisco Department of Public Works)에서 관리하는 가로수의 정식기, 품종, 위치 등의 목록이 포함되어 있습니다. 자세히 알아보기
San Francisco Police Reports Data
이 데이터에는 2003년 1월부터 현재까지 샌프란시스코 경찰국(San Francisco Police Department, SFPD)의 범죄 사건 보고(Crime Incident Reporting) 시스템에 저장된 사건들이 포함되어 있습니다. 자세히 알아보기
San Francisco Fire Department Service Calls Data
이 데이터에는 2000년 4월부터 현재까지의 신고 전화에 대한 소방서 응답 정보가 포함되어 있으며 매일 업데이트됩니다. 전화번호, 사건 번호, 주소, 부서 식별자, 통화 유형, 파견 등이 포함됩니다. 자세히 알아보기
San Francisco 311 Service Requests Data
이 데이터에는 2008년 7월부터 현재까지의 모든 샌프란시스코 311 서비스 요청이 포함되어 있으며 매일 업데이트됩니다. 자세히 알아보기
USA Names
미국 사회보장국(Social Security Administration) 데이터세트로서 1879년 이후 미국 출생자의 사회보장카드 신청서에 기재된 모든 이름이 포함되어 있습니다. 자세히 알아보기
USA Disease Surveillance
미국 보건사회복지부(US Department of Health and Human Services)에서 발행한 데이터세트로서 미국 전체 도시 및 주에서 발생한 법정 감염병을 다룬, 1888~2013년 사이 발행된 모든 주 단위 감시 보고서를 포함하고 있습니다. 자세히 알아보기
USA Bureau of Labor Statistics
이 데이터세트에는 미국 노동통계국(Bureau of Labor Statistics, BLS)에서 제공한 인플레이션, 가격, 실업률, 급여, 수당에 관한 경제 통계가 포함되어 있습니다. 자세히 알아보기
Hacker News
이 데이터세트에는 Hacker News가 운영을 시작한 2006년 이후의 모든 기사와 논평이 포함되어 있습니다. 자세히 알아보기
Major League Baseball Data
이 공개 데이터에는 2016년 메이저리그(MLB) 경기의 투구 데이터가 포함되어 있습니다. 자세히 알아보기
Medicare Data
이 공개 데이터세트는 미국 의료보험제도·국민의료보장제도센터(Centers for Medicare & Medicaid Services)에서 만들었습니다. 이 데이터는 Medicare 보험 수혜자에게 제공된 절차, 서비스, 처방약의 사용률 및 지불에 대해 요약하고 있습니다. 자세히 알아보기
NOAA GSOD Weather Data
국립해양대기국(National Oceanic and Atmospheric Administration, NOAA)에서 만든 이 공개 데이터세트에는 미국공군 기후학 센터(USAF Climatology Center)에서 입수한 전 세계 데이터가 포함되어 있습니다. 이 데이터세트는 9,000개가 넘는 기상 관측소에서 수집한 1929~2016년 GSOD 데이터를 다룹니다. 자세히 알아보기
NOAA GHCN
국립해양대기국(NOAA)에서 만든 이 공개 데이터세트에는 공통 품질 보증 검토에 따른 전 세계 지표 관측소의 기후 요약이 포함되어 있습니다. 이 데이터세트는 20개 이상의 출처를 가지며 1763년 이후의 연간 데이터를 포함하고 있습니다. 자세히 알아보기
NYC TLC Trips
뉴욕시 택시 및 리무진 위원회(NYC Taxi and Limousine Commission, TLC)에서 수집한 데이터로서 2009년부터 현재까지 뉴욕시에서 운행하는 노란색 및 녹색 택시의 모든 이동 경로 기록을 포함하고 있습니다. 자세히 알아보기
NYC 311 Service Requests
이 공개 데이터에는 2010년부터 현재까지의 모든 311 서비스 요청이 포함되어 있으며 매일 업데이트됩니다. 311은 위급하지 않은 민원 접수 서비스를 제공하는 비응급 전화번호입니다. 자세히 알아보기
NYC 도심 자전거 운행
NYC Citi Bike 자전거 공유 프로그램에서 수집한 데이터로서 2013년 9월 Citi Bike가 시작된 이후 맨해튼, 브루클린, 퀸즈, 저지시티의 자전거 10,000대 및 600개의 정차장에 대한 이동 기록이 포함되어 있습니다. 자세히 알아보기
NYC Tree Census
NYC 가로수 데이터에는 NYC 공원행정 관리부(NYC Department of Parks and Recreation)에서 자원봉사자들의 도움을 받아 실시한 1995년, 2005년, 2015년 가로수 조사의 데이터가 포함되어 있습니다. 자세히 알아보기
NYPD Motor Vehicle Collisions
이 데이터세트에는 뉴욕경찰국(NYPD)에서 제공한 2012년부터 현재까지의 뉴욕시 자동차 충돌 사고 정보가 포함되어 있습니다. 자세히 알아보기
Open Images Data
6,000개가 넘는 카테고리의 라벨과 주석이 포함된 이미지 URL 9백만 개로 이루어진 데이터세트입니다. 자세히 알아보기

Geo Imagery 데이터세트

Landsat
미국 지질조사국(United States Geological Survey, USGS)의 위성 이미지 데이터세트로서 1982년부터 현재까지 수집한 픽셀당 15~60미터 해상도의 지구 지표면 다중 스펙트럼 이미지를 수백만 개 포함하고 있습니다. 자세히 알아보기
Earth Engine 데이터세트
Earth Engine의 공개 데이터 카탈로그로서 다양한 표준 지구 과학 래스터 데이터세트를 포함하고 있습니다. 자세히 알아보기
Sentinel-2
유럽우주기구(European Space Agency, ESA)의 위성 이미지 데이터세트로서 2015년부터 현재까지 수집한 픽셀당 10~60미터 해상도의 지구 지표면 다중 스펙트럼 이미지를 포함하고 있습니다. 자세히 알아보기
NEXRAD
미국의 NOAA 기상청(NWS), 연방항공청(FAA), 공군(USAF)에서 가동하는 160개의 고해상도 Doppler 기상 레이더로 구성된 네트워크에서 수집한 기상 레이더 데이터세트입니다. 자세히 알아보기

Genomics 데이터세트

1,000 Genomes
이 데이터세트는 전 세계 25개 모집단의 게놈 약 2,500개로 이루어져 있습니다. 자세히 알아보기
Reference Genomes
GRCh37, GRCh37lite, GRCh38, hg19, hs37d5, b37 등의 표준 게놈입니다. 자세히 알아보기
Illumina Platinum Genomes
이 데이터세트는 CEPH 가계도 1463의 17개 구성원으로 이루어져 있습니다. 자세히 알아보기
Simons Genome Diversity Project
이 데이터세트는 Simons Genome Diversity Project의 시험 프로젝트 데이터세트로 사용되는 13개의 다양한 모집단의 게놈 25개로 이루어져 있습니다. 자세히 알아보기
TCGA Cancer Genomics Data in the Cloud
오픈 액세스 TCGA 데이터에는 33개의 종양 유형에서 얻은 체세포 돌연변이, 임상 데이터, mRNA 및 miRNA 발현, DNA 메틸화, 단백질 발현이 포함되어 있습니다. 자세히 알아보기
자폐증 연구자를 위한 MSSNG 데이터베이스
이 데이터세트는 자폐증과 관련된 가족의 Illumina 및 Complete Genomics 게놈 모음으로 구성되어 있으며 계속 증가하고 있습니다. 자세히 알아보기

공개 데이터세트 가격 책정

Google Cloud 공개 데이터세트는 Google 계정을 통해 무료로 사용할 수 있습니다. 대규모 쿼리 및 특정 사용 사례에서는 요금이 발생할 수 있습니다.

  • BigQuery - BigQuery에 호스팅되는 공개 데이터세트로 한 달에 최대 1TB의 쿼리를 무료로 이용할 수 있습니다. 한 달 쿼리 사용량이 1TB를 초과할 경우 쿼리 가격 책정이 적용됩니다.
  • Google Cloud Storage - 래스터 및 Genomics 데이터 등 Google Cloud Storage에 호스팅되는 공개 데이터세트로서 무료로 이용할 수 있습니다. 애플리케이션에 사용한 컴퓨팅 리소스 또는 추가 저장소 데이터 분석 등 사용한 GCP 리소스 비용만 부담하면 됩니다.