BigQuery에서 Colab Enterprise 노트북을 사용하여 BigQuery 쿼리 결과를 탐색할 수 있습니다.
이 튜토리얼에서는 BigQuery 공개 데이터 세트에서 데이터를 쿼리하고 노트북에서 쿼리 결과를 탐색합니다.
필수 권한
노트북을 만들고 실행하려면 다음 Identity and Access Management(IAM) 역할이 필요합니다.
- BigQuery 사용자(
roles/bigquery.user
) - 노트북 런타임 사용자(
roles/aiplatform.notebookRuntimeUser
) - 코드 생성자(
roles/dataform.codeCreator
)
노트북에서 쿼리 결과 열기
SQL 쿼리를 실행한 후 노트북을 사용하여 데이터를 탐색할 수 있습니다. 이 방법은 데이터를 사용하기 전에 BigQuery에서 데이터를 수정하려는 경우나 테이블에서 필드 하위 집합만 필요한 경우에 유용합니다.
Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.
검색할 유형 필드에
bigquery-public-data
를 입력합니다.프로젝트가 표시되지 않으면 검색창에
bigquery
를 입력한 후 모든 프로젝트 검색을 클릭하여 검색 문자열과 기존 프로젝트를 일치시킵니다.bigquery-public-data > ml_datasets > penguins를 선택합니다.
penguins 테이블의 경우
작업 보기를 클릭한 후 쿼리를 클릭합니다.다음 예시와 같이 읽도록 생성된 쿼리에 필드 선택에 필요한 별표(
*
)를 추가합니다.SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
실행을 클릭합니다.
쿼리 결과 섹션에서 다음에서 열기를 클릭한 다음 노트북을 클릭합니다.
사용할 노트북 준비
런타임에 연결하고 애플리케이션 기본값을 설정하여 사용할 노트북을 준비합니다.
- 노트북 헤더에서 연결을 클릭하여 기본 런타임에 연결합니다.
- 설정 코드 블록에서 셀 실행을 클릭합니다.
데이터 탐색
- penguins 데이터를 BigQuery DataFrame에 로드하고 결과를 표시하려면 BigQuery 작업에서 DataFrame으로 로드된 결과 집합 섹션의 코드 블록에서 셀 실행을 클릭합니다.
- 데이터의 설명 측정항목을 가져오려면 describe()를 사용하여 설명 통계 표시 섹션의 코드 블록에서 셀 실행을 클릭합니다.
- 선택사항: 다른 Python 함수나 패키지를 사용하여 데이터를 탐색하고 분석합니다.
다음 코드 샘플은 bigframes.pandas
를 사용하여 데이터를 분석하고 bigframes.ml
을 사용하여 BigQuery DataFrame의 penguins 데이터에서 선형 회귀 모델을 만드는 방법을 보여줍니다.