BigQuery 공개 데이터 세트

Cloud 공개 데이터 세트 프로그램 카탈로그는 Google Cloud Marketplace에 있습니다. 데이터 세트 섹션의 Cloud Marketplace 페이지에서 개별 데이터 세트에 대해 자세히 알아볼 수 있습니다.

Cloud Marketplaced에서 데이터 세트로 이동

공개 데이터세트는 BigQuery에 저장된 모든 데이터세트이며 Google Cloud 공개 데이터세트 프로그램을 통해 일반 대중에게 제공됩니다. 공개 데이터세트는 사용자가 액세스하고 애플리케이션에 통합할 수 있도록 BigQuery가 호스팅하는 데이터세트입니다. 이러한 데이터세트의 저장 비용은 Google에서 부담하며 프로젝트를 통해 데이터에 대한 공개 액세스 권한을 부여합니다. 사용자에게는 데이터에 대한 쿼리 요금만 부과됩니다. 쿼리 가격 책정 세부정보에 따라 매월 1TB까지는 무료입니다.

시작하기 전에

공개 데이터세트는 legacy SQL 또는 표준 SQL 쿼리를 사용하여 분석할 수 있습니다. Cloud Console을 사용하거나, bq 명령줄 도구를 사용하거나, Java, .NET, Python과 같은 여러 클라이언트 라이브러리를 사용하여 BigQuery REST API를 호출하여 BigQuery 공개 데이터 세트에 액세스할 수 있습니다.

BigQuery 공개 데이터세트 사용을 시작하려면 프로젝트를 만들거나 선택해야 합니다. 매달 처리되는 데이터 중 최초 1TB는 무료이므로 결제를 사용 설정하지 않고 공개 데이터세트의 쿼리를 시작할 수 있습니다. 데이터 처리량이 무료 등급을 초과하면 결제 기능도 사용 설정해야 합니다.

  1. Google 계정으로 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기 페이지로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. BigQuery는 새 프로젝트에서 자동으로 사용 설정됩니다. 기존 프로젝트에서 BigQuery를 활성화하려면 다음을 수행합니다. BigQuery API를 사용 설정합니다.

    API 사용 설정

공개 데이터세트 위치

현재 BigQuery 샘플 테이블은 US 멀티 리전 위치에 저장되어 있습니다. 샘플 테이블을 쿼리할 때는 명령줄에서 --location=US 플래그를 공급하고 Cloud Console에서 처리 위치로 US을 선택하거나 API를 사용할 때 작업 리소스jobReference 섹션에서 location 속성을 지정합니다. 샘플 테이블이 미국에 저장되므로 샘플 테이블 쿼리 결과를 다른 리전의 테이블에 쓸 수 없으며 작업 샘플 테이블을 다른 리전의 테이블에 조인할 수도 없습니다.

Cloud Console에서 공개 데이터 세트에 액세스

Cloud Console을 사용하여 공개 데이터세트에 액세스할 수 있습니다. bigquery-public-data 프로젝트는 모든 프로젝트에 자동으로 고정됩니다. 탐색창의 리소스 섹션에서 프로젝트를 찾을 수 있습니다.

Cloud Console을 사용하여 bigquery-public-data 프로젝트를 수동으로 열려면 브라우저에 다음 URL을 입력합니다.

https://console.cloud.google.com/bigquery?project=bigquery-public-data&page=project

기타 공개 데이터세트

그 밖에도 쿼리할 수 있는 여러 공개 데이터세트가 있습니다. 그 중 일부는 Google에서 호스팅되지만 타사에서 호스팅되는 데이터세트가 더 많습니다. 기타 데이터세트에는 다음이 포함됩니다.

데이터세트 공개 공유

데이터세트의 액세스 제어를 '인증된 모든 사용자'가 액세스할 수 있도록 변경하여 모든 데이터세트를 공개적으로 공유할 수 있습니다. 데이터세트 액세스 제어 설정에 대한 자세한 내용은 데이터세트에 대한 액세스 제어를 참조하세요.

데이터세트를 공개적으로 공유하는 경우:

  • 공개적으로 공유된 데이터세트가 포함된 프로젝트에 연결된 결제 계정에 스토리지 요금이 발생합니다.
  • 쿼리 작업이 실행되는 프로젝트에 연결된 결제 계정에 쿼리 요금이 발생합니다.

자세한 내용은 요금 청구 방식을 참조하세요.

샘플 테이블

공개 데이터세트 외에 BigQuery는 사용자가 쿼리할 수 있는 제한된 수의 샘플 테이블을 제공합니다. 이러한 테이블은 bigquery-public-data:samples 데이터세트에 포함되어 있습니다.

BigQuery 샘플 테이블 쿼리 요구 사항은 공개 데이터세트 쿼리 요구 사항과 동일합니다.

bigquery-public-data:samples 데이터세트에는 다음 테이블이 포함됩니다.

이름 설명
gsod 1929년 후반부터 2010년 초까지 NOAA에서 수집한 날씨 정보를 포함합니다(예: 강우량, 풍속).
github_nested 중첩된 스키마가 포함된 GitHub 저장소의 주석 및 가져오기 요청과 같은 작업의 타임라인을 포함합니다. 2012년 9월에 생성되었습니다.
github_timeline 평면 스키마가 포함된 GitHub 저장소의 주석 및 가져오기 요청과 같은 작업의 타임라인을 포함합니다. 2012년 5월에 생성되었습니다.
natality 1969년부터 2008년까지 50개 주, 워싱턴 DC, 뉴욕시에 등록된 모든 미국 출생을 설명합니다.
shakespeare 셰익스피어 작품의 단어 색인을 포함하고 있으며 각 전집에서 각 단어가 등장하는 횟수를 제공합니다.
trigrams 1520년부터 2008년까지 발행된 작품 견본의 영어 트리그램을 포함합니다.
wikipedia 2010년 4월까지 모든 위키백과 자료에 대한 전체 업데이트 기록을 포함합니다.

문의하기

BigQuery 공개 데이터 세트 프로그램에 대해 궁금한 점이 있으면 bq-public-data@google.com에 문의하세요.

다음 단계

Cloud Console 사용하는 빠른 시작에서 공개 데이터 세트의 테이블을 쿼리하는 방법 알아보기