BigQuery DataFrames 사용해 보기
이 빠른 시작에서는 BigQuery 노트북에서 BigQuery DataFrames API를 사용하여 다음 분석 및 머신러닝(ML) 태스크를 수행합니다.
bigquery-public-data.ml_datasets.penguins
공개 데이터 세트를 기반으로 DataFrame을 만듭니다.- 펭귄의 평균 몸무게를 계산합니다.
- 선형 회귀 모델을 만듭니다.
- 펭귄 데이터의 하위 집합에 따라 학습 데이터로 사용할 DataFrame을 만듭니다.
- 학습 데이터를 삭제합니다.
- 모델 매개변수를 설정합니다.
- 모델을 미세조정합니다.
- 모델 점수를 매깁니다.
시작하기 전에
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
BigQuery API가 사용 설정되었는지 확인합니다.
새 프로젝트를 만들면 BigQuery API가 자동으로 사용 설정됩니다.
필수 권한
노트북을 만들고 실행하려면 다음 Identity and Access Management(IAM) 역할이 필요합니다.
- BigQuery 사용자(
roles/bigquery.user
) - 노트북 런타임 사용자(
roles/aiplatform.notebookRuntimeUser
) - 코드 생성자(
roles/dataform.codeCreator
)
노트북 만들기
BigQuery 편집자에서 노트북 만들기의 안내에 따라 새 노트북을 만듭니다.
BigQuery DataFrames 사용해 보기
다음 단계에 따라 BigQuery DataFrames를 사용합니다.
- 노트북에 새 코드 셀을 만듭니다.
다음 코드를 복사하여 코드 셀에 붙여넣습니다.
import bigframes.pandas as bpd # Set BigQuery DataFrames options bpd.options.bigquery.project = your_gcp_project_id bpd.options.bigquery.location = "us" # Create a DataFrame from a BigQuery table query_or_table = "bigquery-public-data.ml_datasets.penguins" df = bpd.read_gbq(query_or_table) # Use the DataFrame just as you would a pandas DataFrame, but calculations # happen in the BigQuery query engine instead of the local system. average_body_mass = df["body_mass_g"].mean() print(f"average_body_mass: {average_body_mass}") # Create the Linear Regression model from bigframes.ml.linear_model import LinearRegression # Filter down to the data we want to analyze adelie_data = df[df.species == "Adelie Penguin (Pygoscelis adeliae)"] # Drop the columns we don't care about adelie_data = adelie_data.drop(columns=["species"]) # Drop rows with nulls to get our training data training_data = adelie_data.dropna() # Pick feature columns and label column X = training_data[ [ "island", "culmen_length_mm", "culmen_depth_mm", "flipper_length_mm", "sex", ] ] y = training_data[["body_mass_g"]] model = LinearRegression(fit_intercept=False) model.fit(X, y) model.score(X, y)
bpd.options.bigquery.project = your_gcp_project_id
줄을 수정하여 프로젝트를 지정합니다(예:bpd.options.bigquery.project = "myproject"
).코드 셀을 실행합니다.
코드 셀은 데이터 세트에 있는 펭귄의 평균 몸무게를 반환한 후 모델의 평가 측정항목을 반환합니다.
삭제
비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 프로젝트를 삭제하는 것입니다.
프로젝트를 삭제하는 방법은 다음과 같습니다.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
다음 단계
BigQuery DataFrames 노트북 시작하기 사용해 보기