BigQuery ML을 사용하면 GoogleSQL 쿼리를 사용하여 BigQuery에서 머신러닝 모델을 만들고 실행할 수 있습니다. BigQuery ML은 SQL 실무자가 기존 SQL 도구와 기술을 사용하여 모델을 빌드할 수 있게 하여 머신러닝을 대중화합니다. BigQuery ML을 사용하면 데이터를 이동해야 할 필요가 없어 개발 속도가 향상됩니다.
다음을 사용하여 BigQuery ML 기능을 사용할 수 있습니다.
- Google Cloud Console
bq
명령줄 도구- BigQuery REST API
- Jupyter 노트북 또는 비즈니스 인텔리전스 플랫폼과 같은 외부 도구
대규모 데이터 세트의 머신러닝에는 ML 프레임워크에 대한 광범위한 프로그래밍과 지식이 필요합니다. 이러한 요구사항 때문에 각 회사 내 극소수 직원만 솔루션 개발을 담당할 수 있으며, 데이터를 이해하지만 머신러닝과 프로그래밍 전문 지식이 별로 없는 데이터 분석가는 개발에 참여하지 못합니다.
BigQuery ML을 사용하면 데이터 분석가가 기존 SQL 도구와 기술을 통해 머신러닝을 사용할 수 있습니다. 분석가는 BigQuery ML을 사용하여 BigQuery에서 ML 모델을 빌드하고 평가할 수 있습니다. 분석가는 소량의 데이터를 스프레드시트 또는 다른 애플리케이션으로 내보내거나 데이터 과학자 팀의 제한된 리소스를 기다릴 필요가 없습니다.
BigQuery ML에서 지원되는 모델
BigQuery ML의 모델은 ML 시스템이 학습 데이터에서 학습한 내용을 나타냅니다.
BigQuery ML은 다음과 같은 모델 유형을 지원합니다.
- 예측용 선형 회귀. 예를 들어 특정 일의 상품 판매량입니다. 라벨은 실수치입니다. +/- 무한대 또는 NaN이 될 수 없습니다.
- 분류용 이진 로지스틱 회귀. 예를 들어 고객이 구매할지 여부를 판단합니다. 라벨에는 가능한 값이 두 개만 있어야 합니다.
- 분류용 멀티클래스 로지스틱 회귀. 입력이 '낮은 값', '중간 값', '높은 값' 중 무엇인지와 같이, 가능한 여러 값을 예측하는 데 이러한 모델을 사용할 수 있습니다. 라벨은 최대 50개의 고유값을 가질 수 있습니다. BigQuery ML에서 멀티클래스 로지스틱 회귀 학습은 교차 엔트로피 손실 함수를 통해 다항 분류 기준을 사용합니다.
- 데이터 세분화용 K-평균 클러스터링(예: 고객 세그먼트 식별). K-평균은 비지도 학습 기법이므로 모델 학습에는 학습 또는 평가용 라벨이나 데이터 분할이 필요하지 않습니다.
- 제품 추천 시스템을 만들기 위한 행렬 분해. 이전 고객 동작, 트랜잭션, 제품 평가를 사용해서 제품 추천을 만들고 맞춤설정된 고객 환경을 위해 이러한 추천을 사용합니다.
- 시계열 예측 수행을 위한 시계열. 이 기능을 사용하여 수백만 개의 시계열 모델을 만들고 이를 예측에 사용할 수 있습니다. 이 모델은 이상치, 계절성, 공휴일을 자동으로 처리합니다.
- XGBoost 기반 분류 및 회귀 모델을 만들기 위한 부스팅된 트리
- 분류 및 회귀 모델의 TensorFlow 기반 심층신경망을 만들기 위한 심층신경망(DNN)
- Vertex AI AutoML Tables를 사용하면 간단한 프로세스와 인터페이스를 사용하여 테이블 형식의 데이터로 머신러닝을 수행할 수 있습니다.
- TensorFlow 모델 가져오기. 이 기능을 사용하면 이전에 학습된 TensorFlow 모델에서 BigQuery ML 모델을 만든 후 BigQuery ML에서 예측을 수행할 수 있습니다.
- 자동 인코더는 희소 데이터 표현을 지원하는 Tensorflow 기반 BigQuery ML 모델을 만듭니다. 이 모델은 비지도 이상 감지 및 비선형 차원 축소와 같은 작업의 BigQuery ML에서 사용할 수 있습니다.
BigQuery ML에서는 학습 및 예측을 위해 여러 BigQuery 데이터 세트의 데이터가 포함된 모델을 사용할 수 있습니다.
모델 선택 가이드
BigQuery ML의 장점
BigQuery ML에는 클라우드 기반 데이터 웨어하우스에서 ML을 사용하는 다른 접근 방식에 비해 다음과 같은 장점이 있습니다.
- BigQuery ML은 기본 데이터 웨어하우스 사용자인 데이터 분석가가 기존 비즈니스 인텔리전스 도구 및 스프레드시트를 사용하여 모델을 빌드하고 실행할 수 있게 하여 ML 사용을 대중화합니다. 예측 분석은 조직 전체의 비즈니스 의사 결정을 안내할 수 있습니다.
Python 또는 자바를 사용하여 ML 솔루션을 프로그래밍할 필요가 없습니다. 데이터 분석가에게 익숙한 언어인 SQL을 사용하여 BigQuery에서 모델을 학습시키고 액세스할 수 있습니다.
BigQuery ML을 사용하면 데이터 웨어하우스에서 데이터를 내보낼 필요가 없으므로 모델 개발 및 혁신 속도가 향상됩니다. 대신에 BigQuery ML은 데이터에 ML을 제공합니다. BigQuery ML에는 데이터 내보내기와 형식 재지정에 비해 다음과 같은 장점이 있습니다.
- 도구 수가 적어 복잡성이 줄어듭니다.
- BigQuery에서 모델을 학습시키면 Python 기반 ML 프레임워크에서 대량의 데이터 이동 및 형식 지정이 필요 없으므로 프로덕션 속도가 빨라집니다.
BigQuery ML 및 Vertex AI
BigQuery ML은 Google Cloud의 엔드 투 엔드 AI/ML 플랫폼인 Vertex AI와 통합됩니다. Vertex AI 모델 레지스트리에 BigQuery ML 모델을 등록하면 온라인 예측을 위해 이러한 모델을 엔드포인트에 배포할 수 있습니다.
- Vertex AI에서 BigQuery ML 모델을 사용하는 방법에 대한 자세한 내용은 Vertex AI를 사용하여 BigQuery ML 모델 관리를 참조하세요.
- Vertex AI에 익숙하지 않고 BigQuery ML과 통합하는 방법에 대해 자세히 알아보려면 BigQuery 사용자를 위한 Vertex AI를 참조하세요.
지원되는 리전
BigQuery ML은 BigQuery와 동일한 리전에서 지원됩니다. 지원되는 리전 및 멀티 리전의 전체 목록은 위치 페이지를 참조하세요.
가격 책정
BigQuery ML 모델은 테이블 및 보기와 같은 BigQuery 데이터 세트에 저장됩니다. BigQuery ML 가격 책정에 대한 자세한 내용은 BigQuery ML 가격 책정을 참조하세요.
BigQuery 스토리지 가격 책정에 대한 자세한 내용은 스토리지 가격 책정을 참조하세요. BigQuery ML 쿼리 가격 책정에 대한 자세한 내용은 쿼리 가격 책정을 참조하세요.
할당량
BigQuery ML 관련 제한 외에도 BigQuery ML 함수와 CREATE MODEL
문을 사용하는 쿼리에는 BigQuery 쿼리 작업의 할당량과 한도가 적용됩니다.
BigQuery ML의 모든 할당량과 한도에 대한 자세한 내용은 할당량 및 한도를 참조하세요.
다음 단계
- BigQuery ML을 시작하려면 Google Cloud 콘솔을 사용하여 BigQuery ML 시작하기를 참조하세요.
- 머신러닝과 BigQuery ML에 대한 자세한 내용은 다음 리소스를 참조하세요.
- Coursera의 Google Cloud를 사용하여 데이터에 머신러닝 적용 과정
- 데이터 및 머신러닝 학습 프로그램
- 머신러닝 단기집중과정
- 머신러닝 용어집
- Vertex AI 모델 레지스트리를 사용하는 MLOps에 대한 자세한 내용은 Vertex AI를 사용한 MLOps를 참조하세요.