BigQuery 공개 데이터세트
공개 데이터 세트는 BigQuery에 저장된 모든 데이터 세트이며 Google Cloud 공개 데이터 세트 프로그램을 통해 일반 대중에게 제공됩니다. 공개 데이터세트는 사용자가 액세스하고 애플리케이션에 통합할 수 있도록 BigQuery가 호스팅하는 데이터세트입니다. 이러한 데이터 세트의 저장 비용은 Google에서 부담하며 프로젝트를 통해 데이터에 대한 공개 액세스 권한을 부여합니다. 사용자에게는 데이터에 대한 쿼리 요금만 부과됩니다. 쿼리 가격 책정 세부정보에 따라 매월 1TB까지는 무료입니다.
legacy SQL 또는 표준 SQL 쿼리를 사용하여 공개 데이터 세트를 분석할 수 있습니다. 공개 데이터 세트를 쿼리할 때는 정규화된 테이블 이름(예시: bigquery-public-data.bbc_news.fulltext
)을 사용합니다.
콘솔을 사용하거나 bq
명령줄 도구를 사용하거나 자바, .NET 또는 Python과 같은 다양한 클라이언트 라이브러리를 사용하여 BigQuery REST API를 호출해 BigQuery 공개 데이터 세트에 액세스할 수 있습니다.
또한 데이터 라이브러리를 탐색하고 액세스하는 데 도움이 되는 미리보기에서 데이터 교환 플랫폼인 Analytics Hub를 통해 공개 데이터 세트를 보고 쿼리할 수 있습니다.
Cloud Marketplace의 데이터 세트 섹션에서 데이터 세트 이름을 클릭하면 개별 데이터 세트에 대한 세부정보를 볼 수 있습니다.
Cloud Marketplace에서 데이터 세트로 이동
시작하기 전에
BigQuery 공개 데이터 세트 사용을 시작하려면 프로젝트를 만들거나 선택해야 합니다. 매달 처리되는 데이터 중 최초 1TB는 무료이므로 결제를 사용 설정하지 않고 공개 데이터세트의 쿼리를 시작할 수 있습니다. 데이터 처리량이 무료 등급을 초과하면 결제 기능도 사용 설정해야 합니다.
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
- BigQuery는 새 프로젝트에서 자동으로 사용 설정됩니다.
기존 프로젝트에서 BigQuery를 활성화하려면 다음을 수행합니다.
Enable the BigQuery API.
공개 데이터세트 위치
각 공개 데이터 세트는 US
또는 EU
와 같은 특정 위치에 저장됩니다. 현재 BigQuery 샘플 테이블은 US
멀티 리전 위치에 저장되어 있습니다.
샘플 테이블을 쿼리할 때는 명령줄에서 --location=US
플래그를 공급하고 콘솔에서 처리 위치로 US
을 선택하거나 API를 사용할 때 작업 리소스의 jobReference
섹션에서 location
속성을 지정합니다. 샘플 테이블이 미국에 저장되므로 샘플 테이블 쿼리 결과를 다른 리전의 테이블에 쓸 수 없으며 작업 샘플 테이블을 다른 리전의 테이블에 조인할 수도 없습니다.
콘솔에서 공개 데이터 세트에 액세스
다음 방법을 통해 콘솔에서 공개 데이터 세트에 액세스할 수 있습니다.
탐색창의 탐색기 패널에서
bigquery-public-data
프로젝트를 봅니다. 공개 데이터 세트 프로젝트는 모든 프로젝트에 고정됩니다. 이 프로젝트의 공개 데이터 세트와 테이블을 보려면 리소스 표시를 참조하세요.프로젝트가 표시되지 않으면 'bigquery-public-data'를 검색하고 'Broaden search to all projects(모든 프로젝트로 검색 확장)'를 클릭하여 이 프로젝트를 찾습니다. 프로젝트를 탐색기 패널에 고정할 수도 있습니다.
Analytics Hub(미리보기)를 사용하여 공개 데이터 세트를 보고 구독합니다.
데이터 테이블이 마지막으로 업데이트된 날짜를 확인하려면 테이블 정보 가져오기에 설명된 대로 테이블의 세부정보 섹션으로 이동하고 최종 수정 시간 필드를 확인합니다.
기타 공개 데이터 세트
그 밖에도 쿼리할 수 있는 여러 공개 데이터세트가 있습니다. 그 중 일부는 Google에서 호스팅되지만 타사에서 호스팅되는 데이터세트가 더 많습니다. 기타 데이터 세트에는 다음이 포함됩니다.
- Cloud Life Sciences 공개 데이터 세트
- NIH 흉부 X선 데이터 세트
- TCIA(The Cancer Imaging Archive) 데이터 세트
- BigQuery(reddit.com)에서 공개적으로 사용 가능한 데이터세트
- 일반 안정화 버전 Google Cloud 제품의 출시 노트 데이터 세트입니다.
데이터 세트 공개 공유
데이터세트의 액세스 제어를 '인증된 모든 사용자'가 액세스할 수 있도록 변경하여 모든 데이터세트를 공개적으로 공유할 수 있습니다. 데이터세트 액세스 제어 설정에 대한 자세한 내용은 데이터세트에 대한 액세스 제어를 참조하세요.
데이터세트를 공개적으로 공유하는 경우:
- 공개적으로 공유된 데이터세트가 포함된 프로젝트에 연결된 결제 계정에 스토리지 요금이 발생합니다.
- 쿼리 작업이 실행되는 프로젝트에 연결된 결제 계정에 쿼리 요금이 발생합니다.
자세한 내용은 BigQuery 가격 책정 개요를 참조하세요.
샘플 테이블
공개 데이터세트 외에 BigQuery는 사용자가 쿼리할 수 있는 제한된 수의 샘플 테이블을 제공합니다. 이러한 테이블은 bigquery-public-data:samples
데이터 세트에 포함되어 있습니다.
BigQuery 샘플 테이블 쿼리 요구 사항은 공개 데이터세트 쿼리 요구 사항과 동일합니다.
bigquery-public-data:samples
데이터세트에는 다음 테이블이 포함됩니다.
이름 | 설명 |
---|---|
gsod |
1929년 후반부터 2010년 초까지 NOAA에서 수집한 날씨 정보를 포함합니다(예: 강우량, 풍속). |
github_nested |
중첩된 스키마가 포함된 GitHub 저장소의 주석 및 가져오기 요청과 같은 작업의 타임라인을 포함합니다. 2012년 9월에 생성되었습니다. |
github_timeline |
평면 스키마가 포함된 GitHub 저장소의 주석 및 가져오기 요청과 같은 작업의 타임라인을 포함합니다. 2012년 5월에 생성되었습니다. |
natality |
1969년부터 2008년까지 50개 주, 워싱턴 DC, 뉴욕시에 등록된 모든 미국 출생을 설명합니다. |
shakespeare |
셰익스피어 작품의 단어 색인을 포함하고 있으며 각 전집에서 각 단어가 등장하는 횟수를 제공합니다. |
trigrams |
1520년부터 2008년까지 발행된 작품 견본의 영어 트리그램을 포함합니다. |
wikipedia |
2010년 4월까지 모든 위키백과 자료에 대한 전체 업데이트 기록을 포함합니다. |
문의하기
BigQuery 공개 데이터 세트 프로그램에 대해 궁금한 점이 있으면 bq-public-data@google.com
에 문의하세요.
다음 단계
빠른 시작: 콘솔 사용에서 공개 데이터 세트의 테이블을 쿼리하는 방법 알아보기