데이터 분석 역량 강화: 이제 데이터 사이언스 에이전트가 BigQuery ML, DataFrames, Spark를 지원합니다
Ellery Berk
Product Manager, Google Cloud
Jeff Nelson
Developer Relations Engineer, Google Cloud
* 본 아티클의 원문은 2025년 09월 17일 Google Cloud 블로그(영문)에 게재되었습니다.
Google Cloud는 데이터 과학 및 분석 워크플로를 간소화하고 혁신하는 데 도움이 되는 BigQuery 및 Vertex AI를 위한 AI 중심 Colab Enterprise 노트북 환경을 최근 발표했습니다. Colab Enterprise 노트북에는 데이터 사이언스 에이전트가 기본 제공되어 데이터 탐색, 변환, 머신러닝 모델링을 용이하게 하는 에이전트 기능을 통해 데이터 사이언스 개발을 가속화할 수 있습니다. 에이전트는 간단한 프롬프트만으로 데이터 로드 및 정리부터 모델 학습 및 평가에 이르는 워크플로에 대한 상세한 계획을 생성합니다.
오늘은 특히 대규모 개방형 형식 데이터 세트의 분석 여정을 더욱 간소화하고 확장할 수 있는 데이터 사이언스 에이전트의 강력한 새로운 기능을 소개합니다.
BigQuery ML, BigQuery DataFrames, Spark 생성
이제 데이터 사이언스 에이전트 내에서 직접 대규모 데이터 처리를 위해 BigQuery 머신러닝(ML), BigQuery DataFrames(BigFrames), Spark의 기능을 활용할 수 있습니다. BigQuery ML과 BigQuery DataFrames를 사용하면 BigQuery에서 직접 데이터 변환, 모델 학습, 추론을 실행하여 확장할 수 있습니다. 또한 Apache Spark용 서버리스를 사용하면 대규모 데이터 세트에 대해 분산 데이터 처리를 수행할 수 있으므로 단일 머신의 메모리에 맞지 않는 대규모 데이터도 처리할 수 있습니다.
이러한 도구를 호출하려면 프롬프트에 다음 키워드를 포함하기만 하면 됩니다.
-
BigQuery ML: 'BigQuery ML', 'BQML' 또는 'SQL' 사용
-
BigQuery DataFrames: 'BigQuery DataFrames' 또는 'BigFrames' 지정
-
PySpark: 'Spark' 또는 'PySpark' 포함


향후에는 데이터 사이언스 에이전트가 선택한 데이터 세트의 크기나 노트북의 콘텐츠를 기반으로 사용 사례에 맞는 관련 프레임워크를 선택할 수 있게 될 것입니다.
시작하는 데 도움이 될 몇 가지 프롬프트 예시를 소개합니다.
-
“
project_id.dataset_id.table_id
에서 BigQuery SQL을 사용하여 고품질 예측 모델을 빌드하여 재고 수요를 예측해. 모델의 평가 측정항목을 제시하고 95% 신뢰 구간으로 예측을 시각화해 줘.” -
“BigQuery DataFrames를 사용하여 경사 부스팅 트리 모델을 학습시키고 평가하여
project_id.dataset_id.table_id
테이블에서 주택 가격을 예측해 줘. 학습 전에neighborhood
열을 원-핫 인코딩해 줘." -
"타겟팅된 마케팅 캠페인을 위해 유사한 고객을 그룹화하고 싶은데, 먼저 PCA 모델을 사용해서 차원 축소를 진행해야 돼. Spark를 사용하여
project_id.dataset_id.table_id
테이블에서 이 작업을 수행해 줘.”
제한사항: 현재 데이터 사이언스 에이전트는 Spark 4.0 코드를 생성합니다. 에이전트는 코드를 Spark 4.0으로 업그레이드하는 데 도움이 될 수 있습니다. 하지만 이전 버전의 Spark를 사용해야 하는 경우 지금은 PySpark용 데이터 사이언스 에이전트를 사용하지 않는 것이 좋습니다.
컨텍스트 및 @ 멘션을 사용하여 데이터 추가
또한 대화에 데이터를 더 쉽게 가져올 수 있도록 지원합니다. 이제 데이터 사이언스 에이전트가 BigQuery 테이블의 메타데이터와 테이블을 자동으로 검색할 수 있습니다. 즉, 프롬프트에서 테이블을 직접 설명하고 데이터 사이언스 에이전트가 사용자를 대신하여 가장 관련성 높은 테이블을 검색하도록 할 수 있습니다.


또한 이제 @ 멘션을 사용하여 현재 프로젝트 내에서 BigQuery 테이블을 검색할 수 있습니다. 업계 표준의 친숙한 메커니즘을 통해 키보드에서 손을 떼지 않고도 관련 컨텍스트를 사용하여 프롬프트를 작성할 수 있습니다.


제한사항: 현재 @ 멘션은 현재 프로젝트의 BigQuery 테이블만 검색합니다. 프로젝트 전반에 걸쳐 더 광범위하게 검색하거나 세션 스토리지 및 로컬 업로드에서 파일을 추가하려면 '+' 버튼을 계속 사용하세요.
지금 바로 데이터 사이언스 에이전트 사용해 보기
또한 첫 번째 메시지 이후에 더 빠르게 시작되도록 데이터 사이언스 에이전트를 최적화했습니다. 기다리는 시간은 줄어들고 인사이트는 더 빠르게 얻을 수 있습니다. Vertex AI의 Colab Enterprise에 대한 유사한 개선사항도 곧 제공될 예정입니다.
Google Cloud는 AI 기반 데이터 사이언스 환경을 발전시키기 위해 최선을 다하고 있으며, 앞으로 어떤 기능을 빌드할지 기대하셔도 좋습니다. 시작하려면 아래 참조를 확인하세요.
-
액세스:
-
BigQuery: Google Cloud 콘솔 > BigQuery > 노트북으로 이동합니다.
-
Vertex AI: Google Cloud 콘솔 > Vertex AI > Colab Enterprise로 이동합니다. (참고: 여기에 언급된 BigQuery ML, BigQuery Dataframes, Spark 개선사항은 아직 Vertex AI에서 사용할 수 없지만 곧 제공될 예정입니다.)
-
문서:
-
의견 및 지원: 여러분의 의견을 기다립니다. 궁금한 점이 있거나 문제가 발생하는 경우 문의해 주세요.