BigQuery에서 Colab Enterprise 노트북을 사용하여 BigQuery 쿼리 결과를 탐색할 수 있습니다.
이 튜토리얼에서는 BigQuery 공개 데이터 세트에서 데이터를 쿼리하고 노트북에서 쿼리 결과를 탐색합니다.
목표
- BigQuery에서 쿼리를 만들고 실행합니다.
- 노트북에서 쿼리 결과를 탐색합니다.
비용
이 튜토리얼에서는 Google Cloud 공개 데이터 세트 프로그램을 통해 제공되는 데이터 세트를 사용합니다. 이러한 데이터 세트의 스토리지 비용은 Google에서 부담하며 데이터에 대한 공개 액세스를 제공합니다. 개발자에게는 데이터에서 수행하는 쿼리 요금이 청구됩니다. 자세한 내용은 BigQuery 가격 책정을 참조하세요.
시작하기 전에
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the BigQuery API.
새 프로젝트의 경우 BigQuery가 자동으로 사용 설정됩니다.
BigQuery Studio 사용 설정
애셋 관리에 BigQuery Studio 사용 설정의 안내에 따라 노트북과 같은 코드 애셋을 저장 및 공유하고, 버전을 관리합니다.
필수 권한
노트북을 만들고 실행하려면 다음 Identity and Access Management(IAM) 역할이 필요합니다.
- BigQuery 사용자(
roles/bigquery.user
) - 노트북 런타임 사용자(
roles/aiplatform.notebookRuntimeUser
) - 코드 생성자(
roles/dataform.codeCreator
)
노트북에서 쿼리 결과 열기
SQL 쿼리를 실행한 후 노트북을 사용하여 데이터를 탐색할 수 있습니다. 이 방법은 데이터를 사용하기 전에 BigQuery에서 데이터를 수정하려는 경우나 테이블에서 필드 하위 집합만 필요한 경우에 유용합니다.
Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.
검색할 유형 필드에
bigquery-public-data
를 입력합니다.프로젝트가 표시되지 않으면 검색창에
bigquery
를 입력한 후 모든 프로젝트 검색을 클릭하여 검색 문자열과 기존 프로젝트를 일치시킵니다.bigquery-public-data > ml_datasets > penguins를 선택합니다.
penguins 테이블의 경우
작업 보기를 클릭한 후 쿼리를 클릭합니다.다음 예시와 같이 읽도록 생성된 쿼리에 필드 선택에 필요한 별표(
*
)를 추가합니다.SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
실행을 클릭합니다.
쿼리 결과 섹션에서 데이터 탐색을 클릭한 후 Python 노트북으로 탐색을 클릭합니다.
사용할 노트북 준비
런타임에 연결하고 애플리케이션 기본값을 설정하여 사용할 노트북을 준비합니다.
- 노트북 헤더에서 연결을 클릭하여 기본 런타임에 연결합니다.
- 설정 코드 블록에서 셀 실행을 클릭합니다.
데이터 탐색
- penguins 데이터를 BigQuery DataFrame에 로드하고 결과를 표시하려면 BigQuery 작업에서 DataFrame으로 로드된 결과 집합 섹션의 코드 블록에서 셀 실행을 클릭합니다.
- 데이터의 설명 측정항목을 가져오려면 describe()를 사용하여 설명 통계 표시 섹션의 코드 블록에서 셀 실행을 클릭합니다.
- 선택사항: 다른 Python 함수나 패키지를 사용하여 데이터를 탐색하고 분석합니다.
다음 코드 샘플은 bigframes.pandas
를 사용하여 데이터를 분석하고 bigframes.ml
을 사용하여 BigQuery DataFrame의 penguins 데이터에서 선형 회귀 모델을 만드는 방법을 보여줍니다.
삭제
이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.
비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 Google Cloud 프로젝트를 삭제하는 것입니다.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
다음 단계
- BigQuery에서 노트북 만들기 자세히 알아보기
- BigQuery DataFrames를 사용한 데이터 탐색 자세히 알아보기