데이터 과학 에이전트 사용
이 가이드에서는 Colab Enterprise의 데이터 과학 에이전트를 사용하여 노트북에서 데이터 과학 작업을 수행하는 방법을 설명합니다.
Google Cloud 를 위한 Gemini에서 사용자 데이터를 사용하는 방법과 시점을 알아보세요.
이 문서는 Colab Enterprise를 사용하는 데이터 분석가, 데이터 과학자, 데이터 개발자를 대상으로 합니다. 여기서는 사용자가 노트북 환경에서 코드를 작성하는 방법을 알고 있다고 가정합니다.
데이터 과학 에이전트의 기능
데이터 과학 에이전트는 탐색적 데이터 분석부터 머신러닝 예측 및 예측 생성에 이르기까지 다양한 작업을 지원할 수 있습니다. 다음과 같은 작업에 데이터 과학 에이전트를 사용할 수 있습니다.
- 계획 생성: 특정 작업을 완료하기 위한 계획을 생성하고 수정합니다.
- 데이터 탐색: 데이터 세트를 탐색하여 구조를 파악하고, 누락된 값 및 이상치와 같은 잠재적인 문제를 식별하고, 주요 변수의 분포를 검사합니다.
- 데이터 정리: 데이터를 정리합니다. 예를 들어 이상치인 데이터 포인트를 삭제합니다.
- 데이터 랭글링: 원-핫 인코딩 또는 라벨 인코딩과 같은 기법을 사용하여 범주형 특성을 숫자 표현으로 변환합니다. 분석을 위한 새로운 기능을 만듭니다.
- 데이터 분석: 여러 변수 간의 관계를 분석합니다. 숫자 특성 간의 상관관계를 계산하고 범주형 특성의 분포를 탐색합니다. 데이터에서 패턴과 추세를 찾습니다.
- 데이터 시각화: 개별 변수의 분포와 변수 간의 관계를 나타내는 히스토그램, 박스 플롯, 산점도, 막대그래프와 같은 시각화를 만듭니다.
- 특성 추출: 정리된 데이터 세트에서 새로운 특성을 추출합니다.
- 데이터 분할: 엔지니어링된 데이터 세트를 학습, 검증, 테스트 데이터 세트로 분할합니다.
- 모델 학습: 학습 데이터를 사용하여 모델을 학습시킵니다.
- 모델 최적화: 검증 세트를 사용하여 모델을 최적화합니다.
DecisionTreeRegressor
,RandomForestRegressor
과 같은 대체 모델을 살펴보고 성능을 비교합니다. - 모델 평가: 테스트 데이터 세트에서 성능이 가장 우수한 모델을 평가합니다.
제한사항
- 데이터 과학 에이전트는 다음 데이터 소스를 지원합니다.
- CSV 파일
- BigQuery 테이블
- 데이터 과학 에이전트가 생성한 코드는 노트북의 런타임에서만 실행됩니다.
- 노트북이 Data Science Agent에서 지원하는 리전에 있어야 합니다. 위치를 참고하세요.
- VPC 서비스 제어가 사용 설정된 프로젝트에서는 데이터 과학 에이전트가 지원되지 않습니다.
- 데이터 과학 에이전트를 처음 실행하면 약 5~10분의 지연 시간이 발생할 수 있습니다. 이 작업은 초기 설정 중에 프로젝트당 한 번만 발생합니다.
시작하기 전에
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
Google Cloud 콘솔에서 Colab Enterprise 내 노트북 페이지로 이동합니다.
-
리전 메뉴에서 노트북이 포함된 리전을 선택합니다.
-
열려는 노트북을 클릭합니다.
-
툴바에서
Gemini 버튼을 클릭하여 채팅 대화상자를 엽니다. -
CSV 파일을 업로드하려면 다음 단계를 따르세요.
- 채팅 대화상자에서 파일 추가를 클릭합니다.
-
필요한 경우 Google 계정을 승인합니다.
Colab Enterprise가 런타임을 시작하고 파일 탐색을 사용 설정할 때까지 잠시 기다립니다.
- 파일 창에서 세션 저장소에 업로드를 클릭합니다.
- 파일의 위치를 찾아 열기를 클릭합니다.
-
확인을 클릭하여 런타임이 삭제되면 이 런타임의 파일이 삭제된다는 점을 확인합니다.
파일이 파일 창에 업로드됩니다.
-
업로드한 파일 옆에 있는
작업 메뉴를 클릭한 다음 Gemini에 추가를 선택합니다.파일이 채팅 대화상자에 추가됩니다.
-
Gemini 채팅 대화상자에서 프롬프트를 입력하고
보내기를 클릭합니다. 프롬프트에 대한 아이디어를 얻으려면 [데이터 과학 에이전트 기능](#capabilities)을 검토하고 [샘플 프롬프트](#sample-prompts)를 참고하세요.예를 들어 '업로드한 데이터 분석을 제공해 줘'라고 입력할 수 있습니다.
-
Gemini가 프롬프트에 대답합니다. 대답에는 실행할 코드 스니펫, 프로젝트에 관한 일반적인 조언, 목표 달성을 위한 다음 단계, 데이터 또는 코드의 특정 문제에 관한 정보가 포함될 수 있습니다.
대답을 평가한 후 다음 작업을 할 수 있습니다.
- Gemini가 대답에서 코드를 제공하는 경우 다음을 클릭할 수 있습니다.
- 수락을 클릭하여 노트북에 코드를 추가합니다.
- 수락 및 실행을 클릭하여 노트북에 코드를 추가하고 코드를 실행합니다.
- 취소를 선택하여 추천 코드를 삭제합니다.
- 필요에 따라 후속 질문을 하고 토론을 계속합니다.
- Gemini가 대답에서 코드를 제공하는 경우 다음을 클릭할 수 있습니다.
-
Gemini 대화상자를 닫으려면
닫기를 클릭합니다. - k-최근접 이웃 (KNN) 머신러닝 알고리즘을 사용하여 누락된 값을 찾아 채웁니다.
- 경험 수준별 급여의 플롯을 만드세요.
experience_level
열을 사용하여 급여를 그룹화하고salary_in_usd
열의 값을 표시하는 각 그룹의 상자 그림을 만듭니다. - XGBoost 알고리즘을 사용하여 특정 과일의
class
변수를 결정하는 모델을 만듭니다. 데이터를 학습 및 테스트 데이터 세트로 분할하여 모델을 생성한 다음 모델의 정확성을 평가합니다. 정확한 예측과 부정확한 예측을 포함하여 각 클래스의 예측을 보여주는 혼동 행렬을 만듭니다. - 데이터의 pandas 데이터 프레임을 만들어 줘. null 값에 대한 데이터를 분석한 다음 측정된 값에는 바이올린 플롯을, 카테고리에는 막대 플롯을 사용하여 각 열의 분포를 시각화합니다.
- 데이터 세트의 CSV 파일을 읽고 DataFrame을 구성하고, DataFrame에 대한 분석을 실행하여 값으로 수행해야 하는 작업 (결측값 대체 또는 삭제, 중복 행 삭제)을 결정하고, 도시 위치별로 투자된 금액의 분포를 결정합니다. 상위 20개 결과만 표시하여 위치와 평균 투자 금액 (USD)을 내림차순으로 막대 그래프에 시각화합니다.
- 향후 6개월 동안
filename.csv
에서target_variable
을 예측해 줘. target_variable
을 위해filename.csv
에서 분류 모델을 빌드하고 평가합니다.BigQuery와 함께 데이터 과학 에이전트를 사용하는 방법은 BigQuery와 함께 Colab Enterprise 데이터 과학 에이전트 사용을 참고하세요.
Google Cloud를 위한 Gemini 개요를 읽어봅니다.
Gemini 지원으로 코드를 작성하고 수정하는 방법을 자세히 알아보려면 다음을 참고하세요.
필요한 역할
Colab Enterprise에서 데이터 과학 에이전트를 사용하는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 Colab Enterprise 사용자 (roles/aiplatform.colabEnterpriseUser
) IAM 역할을 부여해 달라고 요청하세요.
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.
데이터 과학 에이전트 사용
Colab Enterprise의 데이터 과학 에이전트를 사용하려면 다음 단계를 따르세요.
Colab Enterprise에서 Gemini 사용 중지
Google Cloud 프로젝트용 Colab Enterprise에서 Gemini를 사용 중지하려면 관리자가 Gemini for Google Cloud API를 사용 중지해야 합니다. 서비스 사용 중지를 참고하세요.
특정 사용자에 대해 Colab Enterprise에서 Gemini를 사용 중지하려면 관리자가 해당 사용자의 Google Cloud를 위한 Gemini 사용자 (roles/cloudaicompanion.user
) 역할을 취소해야 합니다. 단일 IAM 역할 취소를 참고하세요.
샘플 프롬프트
다음 예시는 데이터 과학 에이전트와 함께 사용할 수 있는 프롬프트 유형을 보여줍니다.
지원되는 리전
Colab Enterprise의 데이터 과학 에이전트가 지원되는 리전을 보려면 위치를 참고하세요.
결제
미리보기 중에는 노트북의 런타임에서 코드를 실행한 경우에만 요금이 청구됩니다. 자세한 내용은 Colab Enterprise 가격 책정을 참고하세요.