BigQuery에서 Colab Enterprise 데이터 과학 에이전트 사용

Colab Enterprise 및 BigQuery용 데이터 과학 에이전트(DSA)를 사용하면 Colab Enterprise 노트북 내에서 탐색적 데이터 분석을 자동화하고, 머신러닝 태스크를 수행하고, 인사이트를 제공할 수 있습니다.

시작하기 전에

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Enable the APIs

BigQuery의 Colab Enterprise를 처음 사용하는 경우 노트북 만들기 페이지의 설정 단계를 참조하세요.

제한사항

데이터 과학 에이전트는 다음 데이터 소스를 지원합니다.
- CSV 파일
- BigQuery 테이블
데이터 과학 에이전트가 생성한 코드는 노트북의 런타임에서만 실행됩니다.
VPC 서비스 제어가 사용 설정된 프로젝트에서는 데이터 과학 에이전트가 지원되지 않습니다.
데이터 과학 에이전트를 처음 실행하면 약 5~10분의 지연 시간이 발생할 수 있습니다. 이러한 지연은 초기 설정 중에 프로젝트당 한 번만 발생합니다.

데이터 과학 에이전트 사용 시기

데이터 과학 에이전트는 탐색적 데이터 분석부터 머신러닝 예측 생성에 이르기까지 다양한 작업을 지원합니다. DSA를 사용하여 다음 작업을 할 수 있습니다.

계획 생성: 특정 작업을 완료하기 위한 계획을 생성하고 수정합니다.
데이터 탐색: 데이터 세트를 탐색하여 구조를 파악하고, 누락된 값 및 이상치와 같은 잠재적인 문제를 식별하고, 주요 변수의 분포를 검사합니다.
데이터 정리: 데이터를 정리합니다. 예를 들어 이상치인 데이터 포인트를 삭제합니다.
데이터 랭글링: 원-핫 인코딩 또는 라벨 인코딩과 같은 기법을 사용하여 범주형 특성을 수치적 표현으로 변환합니다. 분석을 위한 새로운 특성을 만듭니다.
데이터 분석: 여러 변수 간의 관계를 분석합니다. 숫자형 특성 간의 상관관계를 계산하고 범주형 특성의 분포를 탐색합니다. 데이터에서 패턴과 트렌드를 찾습니다.
데이터 시각화: 개별 변수의 분포와 변수 간의 관계를 나타내는 히스토그램, 박스 플롯, 분산형 차트, 막대그래프와 같은 시각화를 만듭니다.
특성 추출: 정리된 데이터 세트에서 새로운 특성을 추출합니다.
데이터 분할: 엔지니어링된 데이터 세트를 학습, 검증, 테스트 데이터 세트로 분할합니다.
모델 학습: 학습 데이터(X_train, y_train)를 사용하여 모델을 학습시킵니다.
모델 최적화: 검증 세트를 사용하여 모델을 최적화합니다. DecisionTreeRegressor, RandomForestRegressor 등의 대체 모델을 살펴보고 성능을 비교합니다.
모델 평가: 테스트 데이터 세트(X_test_imputed, y_test)에서 가장 우수한 모델을 평가합니다.

BigQuery에서 데이터 과학 에이전트 사용

다음의 일반적인 단계에서는 BigQuery에서 데이터 과학 에이전트를 사용하는 방법을 보여줍니다.

Colab Enterprise 노트북을 만들거나 엽니다.
CSV 파일을 업로드하거나 프롬프트에서 BigQuery 테이블을 참조합니다.
수행하려는 데이터 분석 또는 빌드하려는 프로토타입을 설명하는 프롬프트를 입력합니다. 도움이 필요하면 샘플 프롬프트를 참조하세요.
결과를 살펴봅니다.

CSV 파일 분석

BigQuery의 데이터 과학 에이전트를 사용하여 CSV를 분석하려면 다음 단계를 따르세요.

BigQuery 페이지로 이동합니다.

BigQuery로 이동
BigQuery Studio 시작 페이지의 새로 만들기에서 노트북을 클릭합니다.

또는 탭 바에서 + 아이콘 옆에 있는 드롭다운 화살표를 클릭한 다음 노트북 > 빈 노트북을 클릭합니다.
툴바에서 spark Gemini 전환 버튼을 클릭하여 채팅 대화상자를 엽니다.

참고: 패널로 이동 아이콘을 클릭하여 채팅 대화상자를 노트북 외부의 별도 패널로 이동할 수 있습니다.
CSV 파일을 업로드합니다.
1. 채팅 대화상자에서 파일 추가를 클릭합니다.
2. 필요한 경우 Google 계정을 승인합니다.
3. 작업 창에서 파일 업로드를 클릭합니다.
4. CSV 파일의 위치로 이동한 다음 열기를 클릭합니다.
5. 파일 이름 옆에 있는 작업 더보기 아이콘을 클릭한 다음 Gemini에 추가를 선택합니다.
채팅 창에 프롬프트를 입력합니다. 예: Identify trends and anomalies in this file.
보내기를 클릭합니다.

결과가 채팅 창에 표시됩니다.
에이전트에게 계획을 변경해 달라고 요청하거나 수락 및 실행을 클릭하여 직접 실행할 수 있습니다. 계획이 실행되면 생성된 코드와 텍스트가 노트북에 표시됩니다. 중지하려면 취소를 클릭합니다.

BigQuery 테이블 분석

BigQuery 테이블을 분석하려면 프롬프트에 테이블에 대한 참조를 제공합니다.

BigQuery 페이지로 이동합니다.

BigQuery로 이동
BigQuery Studio 시작 페이지의 새로 만들기에서 노트북을 클릭합니다.

또는 탭 바에서 + 아이콘 옆에 있는 드롭다운 화살표를 클릭한 다음 노트북 > 빈 노트북을 클릭합니다.
툴바에서 spark Gemini 전환 버튼을 클릭하여 채팅 대화상자를 엽니다.

참고: 패널로 이동 아이콘을 클릭하여 채팅 대화상자를 노트북 외부의 별도 패널로 이동할 수 있습니다.
채팅 창에 프롬프트를 입력합니다. 예를 들어 "탐색적 데이터 분석을 수행하고 project_id:dataset.table 테이블의 데이터에 관한 유용한 정보를 제공해 줘"라고 입력할 수 있습니다.

다음을 바꿉니다.
- project_id: 프로젝트 ID입니다.
- dataset: 분석할 테이블이 포함된 데이터 세트의 이름입니다.
- table: 분석 중인 테이블의 이름입니다.
보내기를 클릭합니다.

결과가 채팅 창에 표시됩니다.
에이전트에게 계획을 변경해 달라고 요청하거나 수락 및 실행을 클릭하여 직접 실행할 수 있습니다. 계획이 실행되면 생성된 코드와 텍스트가 노트북에 표시됩니다. 중지하려면 취소를 클릭합니다.

샘플 프롬프트

사용하는 프롬프트의 복잡성과 관계없이 데이터 과학 에이전트는 필요에 맞게 미세 조정할 수 있는 계획을 생성합니다.

다음 예시는 DSA와 함께 사용할 수 있는 프롬프트 유형을 보여줍니다.

k-최근접 이웃(KNN) 머신러닝 알고리즘을 사용하여 누락된 값을 조사하고 채워 줘.
경력별 급여 차트를 만들어 줘. experience_level 열을 사용하여 급여를 그룹화하고 salary_in_usd 열의 값을 표시하는 각 그룹의 박스 플롯을 만들어야 해.
XGBoost 알고리즘을 사용하여 특정 과일의 class 변수를 결정하는 모델을 만들어 줘. 데이터를 학습 데이터 세트와 테스트 데이터 세트로 분할하여 모델을 생성하고 모델의 정확성을 확인해야 해. 올바른 예측과 잘못된 예측을 모두 포함하여 각 등급의 예측을 보여주는 혼동 행렬을 만들어 줘.
데이터의 Pandas DataFrame을 만들어 줘. null 값에 대한 데이터를 분석한 다음 그래프 유형을 사용하여 각 열의 분포를 그래프로 표시해야 해. 측정된 값에는 바이올린 플롯을 사용하고 카테고리에는 막대 플롯을 사용해.
데이터 세트를 CSV로 읽어 DataFrame을 구성하고, DataFrame에서 분석을 실행하여 값으로 수행해야 하는 작업(누락된 값 바꾸기 또는 삭제, 중복 행 수정)을 확인하고, 도시 위치별로 투자금(USD) 분포를 알려줘. 위치를 평균 투자금(USD)과 비교하여 상위 20개 결과만 내림차순으로 막대 그래프에 표시해 줘.
filename.csv에서 향후 6개월 동안의 target_variable을 예측해 줘.
target_variable에 대해 filename.csv에서 분류 모델을 빌드하고 평가해 줘.

BigQuery의 Gemini 사용 중지

Google Cloud 프로젝트에 대해 BigQuery의 Gemini를 사용 중지하려면 관리자가 Gemini for Google Cloud API를 사용 중지해야 합니다. 서비스 사용 중지를 참조하세요.

특정 사용자에 대해 BigQuery의 Gemini를 사용 중지하려면 관리자가 해당 사용자의 Google Cloud를 위한 Gemini 사용자(roles/cloudaicompanion.user) 역할을 취소해야 합니다. 단일 IAM 역할 취소를 참조하세요.

가격 책정

프리뷰 버전에서는 노트북의 런타임에서 코드를 실행한 경우에만 요금이 청구됩니다. 자세한 내용은 Colab Enterprise 가격 책정을 참조하세요.

지원되는 리전

Colab Enterprise의 데이터 과학 에이전트가 지원되는 리전을 확인하려면 위치를 참조하세요.