이 튜토리얼에서는 데이터 분석가에게 BigQuery ML의 행렬 분해 모델을 소개합니다. BigQuery ML을 사용하면 BigQuery에서 SQL 쿼리를 사용하여 머신러닝 모델을 만들고 실행할 수 있습니다. 목표는 SQL 실무자가 기존 도구를 사용하여 모델을 빌드할 수 있도록 지원하여 머신러닝을 대중화하고 데이터 이동의 필요성을 제거하여 개발 속도를 향상시키는 것입니다.
이 튜토리얼에서는 GA360_test.ga_sessions_sample
샘플 테이블을 사용하여 암시적 피드백에서 행렬 분해 모델을 만들어 방문자 ID와 콘텐츠 ID를 기반으로 추천을 생성하는 방법을 알아봅니다.
ga_sessions_sample
테이블에는 Google 애널리틱스 360에서 수집하여 BigQuery로 전송된 세션 데이터 슬라이스의 정보가 포함되어 있습니다.
목표
이 가이드에서는 다음을 사용합니다.
- BigQuery ML:
CREATE MODEL
문을 사용하여 암시적 추천 모델을 만듭니다. ML.EVALUATE
함수: ML 모델을 평가합니다.ML.WEIGHTS
함수: 학습 중에 생성된 잠재 계수 가중치를 검사합니다.ML.RECOMMEND
함수: 사용자를 위한 추천을 생성합니다.
비용
이 튜토리얼에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
- BigQuery
- BigQuery ML
BigQuery 비용에 대한 자세한 내용은 BigQuery 가격 책정 페이지를 참조하세요.
BigQuery ML 비용에 대한 자세한 내용은 BigQuery ML 가격 책정을 참조하세요.
시작하기 전에
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
- BigQuery는 새 프로젝트에서 자동으로 사용 설정됩니다.
기존 프로젝트에서 BigQuery를 활성화하려면 다음으로 이동합니다.
Enable the BigQuery API.
1단계: 데이터세트 만들기
ML 모델을 저장할 BigQuery 데이터 세트를 만듭니다.
Google Cloud 콘솔에서 BigQuery 페이지로 이동합니다.
탐색기 창에서 프로젝트 이름을 클릭합니다.
작업 보기 > 데이터 세트 만들기를 클릭합니다.
데이터 세트 만들기 페이지에서 다음을 수행합니다.
데이터 세트 ID에
bqml_tutorial
를 입력합니다.위치 유형에 대해 멀티 리전을 선택한 다음 US(미국 내 여러 리전)를 선택합니다.
공개 데이터 세트는
US
멀티 리전에 저장됩니다. 편의상 같은 위치에 데이터 세트를 저장합니다.나머지 기본 설정은 그대로 두고 데이터 세트 만들기를 클릭합니다.
2단계: BigQuery에 애널리틱스 360 데이터 로드
대부분의 경우 데이터의 평점은 사용자가 명시적으로 설정한 값을 반영하지 않습니다. 이 시나리오에서는 이러한 값의 프록시 값을 암시적 평점으로 설정하고 다른 알고리즘을 사용하여 추천을 계산할 수 있습니다. 이 예시에서는 애널리틱스 360 데이터 세트의 샘플을 사용합니다. 이 샘플은 이 자료를 기반으로 합니다.
다음은 방문자가 cloud-training-demos.GA360_test.ga_sessions_sample
의 페이지에서 세션 시간 동안 지정한 암시적 평점으로 데이터 세트를 만들기 위해 실행하는 쿼리입니다. 이 쿼리의 목표는 사용자 열, 항목 열, 평점 열에 매핑할 수 있는 세 개의 열이 있는 데이터세트를 만드는 것입니다.
Google Cloud 콘솔에서 새 쿼리 작성 버튼을 클릭합니다.
쿼리 편집기 텍스트 영역에 다음 GoogleSQL 쿼리를 입력합니다.
#standardSQL CREATE OR REPLACE TABLE bqml_tutorial.analytics_session_data AS WITH visitor_page_content AS ( SELECT fullVisitorID, ( SELECT MAX( IF (index=10, value, NULL)) FROM UNNEST(hits.customDimensions)) AS latestContentId, (LEAD(hits.time, 1) OVER (PARTITION BY fullVisitorId ORDER BY hits.time ASC) - hits.time) AS session_duration FROM `cloud-training-demos.GA360_test.ga_sessions_sample`, UNNEST(hits) AS hits WHERE # only include hits on pages hits.type = "PAGE" GROUP BY fullVisitorId, latestContentId, hits.time ) # aggregate web stats SELECT fullVisitorID AS visitorId, latestContentId AS contentId, SUM(session_duration) AS session_duration FROM visitor_page_content WHERE latestContentId IS NOT NULL GROUP BY fullVisitorID, latestContentId HAVING session_duration > 0 ORDER BY latestContentId
(선택사항) 처리 위치를 설정하려면 더보기 > 쿼리 설정을 클릭합니다. 데이터 위치에
US
를 선택합니다. 처리 위치는 데이터 세트 위치를 기준으로 자동 감지되므로 이 단계는 선택사항입니다.실행을 클릭합니다.
쿼리 실행이 완료되면 탐색 패널에 (
bqml_tutorial.analytics_session_data
)가 표시됩니다. 이 쿼리는CREATE TABLE
문을 사용하여 테이블을 만들기 때문에 쿼리 결과가 표시되지 않습니다.생성된 테이블을 살펴보면 다음과 같이 표시됩니다.
이 결과는 데이터를 BigQuery로 내보낸 방식에 따라 달라집니다. 자체 데이터를 추출하는 쿼리는 다를 수 있습니다.
3단계: 암시적 추천 모델 만들기
다음으로는 이전 단계에서 로드한 Google 애널리틱스 테이블을 사용하여 암시 적 추천 모델을 만듭니다. 다음 GoogleSQL 쿼리는 모든 visitorId
contentId
쌍의 신뢰도 평점 예측에 사용되는 모델을 만드는 데 사용됩니다. 평점은 중앙 세션 시간을 기준으로 중앙값 및 배율로 생성되며, 세션 기간이 이상점으로 중앙값의 3.33배를 초과하는 레코드를 필터링합니다.
#standardSQL CREATE OR REPLACE MODEL `bqml_tutorial.my_implicit_mf_model` OPTIONS (model_type='matrix_factorization', feedback_type='implicit', user_col='visitorId', item_col='contentId', rating_col='rating', l2_reg=30, num_factors=15) AS SELECT visitorId, contentId, 0.3 * (1 + (session_duration - 57937) / 57937) AS rating FROM `bqml_tutorial.analytics_session_data` WHERE 0.3 * (1 + (session_duration - 57937) / 57937) < 1
쿼리 세부정보
CREATE MODEL
절을 사용하여 bqml_tutorial.my_implicit_mf_model
이라는 모델을 만들고 학습시킵니다.
OPTIONS(model_type='matrix_factorization', feedback_type='IMPLICIT',
user_col='visitorId', ...)
절은 행렬 분해 모델을 만든다는 것을 나타냅니다. feedback_type='IMPLICIT'
가 지정되었으므로 암시적 행렬 분해 모델이 학습됩니다.
명시적 행렬 분해 모델을 만드는 방법의 예시는 명시적인 행렬 분해 모델 만들기에 설명되어 있습니다.
이 쿼리의 SELECT
문은 다음 열을 사용하여 추천을 생성합니다.
visitorId
: 방문자 ID(INT64)contentId
: 콘텐츠 ID(INT64)rating
:visitorId
및 각 해당contentId
의 중앙값과 배율에 대해 계산된 0부터 1까지의 암시적 평가(FLOAT64)
FROM
절(bqml_tutorial.analytics_session_data
)은 bqml_tutorial
데이터 세트에서 analytics_session_data
테이블을 쿼리함을 나타냅니다. 2단계와 8단계의 안내를 따른 경우 이 데이터 세트는 BigQuery 프로젝트에 있습니다.
CREATE MODEL
쿼리 실행
CREATE MODEL
쿼리를 실행하여 모델을 만들고 학습시키려면 다음 안내를 따르세요.
Google Cloud 콘솔에서 새 쿼리 작성 버튼을 클릭합니다.
쿼리 편집기 텍스트 영역에 다음 GoogleSQL 쿼리를 입력합니다.
#standardSQL CREATE OR REPLACE MODEL `bqml_tutorial.my_implicit_mf_model` OPTIONS (model_type='matrix_factorization', feedback_type='implicit', user_col='visitorId', item_col='contentId', rating_col='rating', l2_reg=30, num_factors=15) AS SELECT visitorId, contentId, 0.3 * (1 + (session_duration - 57937) / 57937) AS rating FROM `bqml_tutorial.analytics_session_data`
실행을 클릭합니다.
쿼리를 완료하는 데 약 12분이 소요되며 이후에는 모델(
my_implicit_mf_model
)이 탐색 패널에 표시됩니다. 이 쿼리에서는CREATE MODEL
문을 사용하여 모델을 만들므로 쿼리 결과가 표시되지 않습니다.
(선택사항) 4단계: 학습 통계 가져오기
모델 학습 결과를 확인하려면 ML.TRAINING_INFO
함수를 사용하거나 Google Cloud 콘솔에서 통계를 보면 됩니다. 이 가이드에서는 Google Cloud 콘솔을 사용합니다.
머신러닝 알고리즘은 많은 예시를 검사하고 손실을 최소화하는 모델을 찾으려고 시도하여 모델을 빌드합니다. 이 프로세스를 경험적 위험 최소화라고 합니다.
CREATE MODEL
쿼리를 실행할 때 생성된 모델 학습 통계를 확인하려면 다음 안내를 따르세요.
Google Cloud 콘솔 탐색 패널의 리소스 섹션에서 [PROJECT_ID] > bqml_tutorial을 펼친 후 my_implicit_mf_model을 클릭합니다.
학습 탭을 클릭한 후 테이블을 클릭합니다. 다음과 같은 결과가 표시됩니다.
학습 데이터 손실 열은 학습 데이터 세트에서 모델 학습이 진행된 후 계산된 손실 측정항목을 나타냅니다. 행렬 분해를 수행했으므로 이 열은 평균 제곱 오차입니다. 기본적으로 행렬 분해 모델은 데이터를 분할하지 않습니다. 데이터를 분할하면 사용자 또는 항목의 모든 평점이 손실될 수 있으므로 홀드아웃 데이터 세트가 지정되지 않으면 평가 데이터 손실 열이 표시되지 않습니다. 따라서 모델에 누락된 사용자 또는 항목에 대한 잠재 계수 정보가 없습니다.
ML.TRAINING_INFO
함수에 대한 자세한 내용은 BigQuery ML 구문 참조를 확인하세요.
5단계: 모델 평가
모델을 만든 후에는 ML.EVALUATE
함수를 사용하여 추천자의 성능을 평가합니다. ML.EVALUATE
함수는 예측된 평점을 실제 평점과 비교하여 평가합니다.
모델을 평가하는 데 사용되는 쿼리는 다음과 같습니다.
#standardSQL SELECT * FROM ML.EVALUATE(MODEL `bqml_tutorial.my_implicit_mf_model`)
쿼리 세부정보
맨 위에 있는 SELECT
문은 모델의 열을 검색합니다.
FROM
절은 bqml_tutorial.my_implicit_mf_model
모델에 ML.EVALUATE
함수를 사용합니다.
ML.EVALUATE
쿼리 실행
모델을 평가하는 ML.EVALUATE
쿼리를 실행하려면 다음 안내를 따르세요.
Google Cloud 콘솔에서 새 쿼리 작성 버튼을 클릭합니다.
쿼리 편집기 텍스트 영역에 다음 GoogleSQL 쿼리를 입력합니다.
#standardSQL SELECT * FROM ML.EVALUATE(MODEL `bqml_tutorial.my_implicit_mf_model`)
(선택사항) 처리 위치를 설정하려면 더보기 > 쿼리 설정을 클릭합니다. 데이터 위치에
US
를 선택합니다. 처리 위치는 데이터 세트 위치를 기준으로 자동 감지되므로 이 단계는 선택사항입니다.실행을 클릭합니다.
쿼리가 완료되면 쿼리 텍스트 영역 아래의 결과 탭을 클릭합니다. 다음과 같은 결과가 표시됩니다.
암시적 행렬 분해를 수행했으므로 결과에 다음 열이 포함됩니다.
mean_average_precision
mean_squared_error
normalized_discounted_cumulative_gain
average_rank
mean_average_precision
,normalized_discounted_cumulative_gain
,average_rank
는 암시적인 행렬 분해 측정항목에서 설명한 순위 측정항목입니다.
6단계: 평점 예측 및 추천 생성
모델을 사용하여 평점을 예측하고 추천을 생성합니다.
visitorIds
세트의 모든 contentId
평점 신뢰도 찾기
ML.RECOMMEND
는 모델 이외의 추가 인수를 사용할 필요가 없지만 선택적 테이블을 사용할 수 있습니다. 입력 테이블에 입력 user
또는 입력 item
열의 이름과 일치하는 열이 하나뿐이면 각 user
의 예측된 항목 평점이 모두 출력되며 그 반대도 마찬가지입니다. 입력 테이블에 모든 users
또는 모든 items
가 있으면 ML.RECOMMEND
에 선택적 인수를 전달하지 않는 경우와 동일한 결과가 출력됩니다.
다음은 방문자 5명의 예상 평점 신뢰도를 모두 가져오는 쿼리의 예시입니다.
#standardSQL SELECT * FROM ML.RECOMMEND(MODEL `bqml_tutorial.my_implicit_mf_model`, ( SELECT visitorId FROM `bqml_tutorial.analytics_session_data` LIMIT 5))
쿼리 세부정보
맨 위에 있는 SELECT
문은 visitorId
, contentId
, predicted_rating_confidence
열을 검색합니다. 이 마지막 열은 ML.RECOMMEND
함수에 의해 생성됩니다. ML.RECOMMEND
함수를 사용할 때 암시적 행렬 분해 모델의 출력 열 이름은 predicted_rating-column-name_confidence
입니다. 암시적 행렬 분해 모델에서 predicted_rating_confidence
는 user
/item
쌍의 추정 신뢰도입니다. 이 신뢰값은 대략 0에서 1 사이이며, 신뢰도가 높을수록 user
가 해당 item
을 신뢰값이 더 낮은 item
보다 선호함을 나타냅니다.
ML.RECOMMEND
함수는 bqml_tutorial.my_implicit_mf_model
모델을 사용하여 평점을 예측하는 데 사용됩니다.
이 쿼리의 중첩된 SELECT
문은 학습에 사용된 원본 테이블에서 visitorId
열만 선택합니다.
LIMIT
절(LIMIT 5
)은 ML.RECOMMEND
로 전송할 visitorId
5개를 무작위로 필터링합니다.
모든 visitorId contentId 쌍의 평점 찾기
모델을 평가했으므로 다음 단계는 모델을 사용하여 평점 신뢰도를 확인하는 것입니다. 모델을 사용하여 다음 쿼리에서 모든 사용자-항목 조합의 신뢰도를 예측합니다.
#standardSQL SELECT * FROM ML.RECOMMEND(MODEL `bqml_tutorial.my_implicit_mf_model`)
쿼리 세부정보
맨 위에 있는 SELECT
문은 visitorId
, contentId
, predicted_rating_confidence
열을 검색합니다. 이 마지막 열은 ML.RECOMMEND
함수에 의해 생성됩니다. ML.RECOMMEND
함수를 사용할 때 암시적 행렬 분해 모델의 출력 열 이름은 predicted_rating-column-name_confidence
입니다. 암시적 행렬 분해 모델에서 predicted_rating_confidence
는 user
/item
쌍의 추정 신뢰도입니다. 이 신뢰값은 대략 0에서 1 사이이며, 신뢰도가 높을수록 user
가 해당 item
을 신뢰값이 더 낮은 item
보다 선호함을 나타냅니다.
ML.RECOMMEND
함수는 bqml_tutorial.my_implicit_mf_model
모델을 사용하여 평점을 예측하는 데 사용됩니다.
결과를 테이블에 저장하는 방법 중 하나는 다음과 같습니다.
#standardSQL CREATE OR REPLACE TABLE `bqml_tutorial.recommend_content` OPTIONS() AS SELECT * FROM ML.RECOMMEND(MODEL `bqml_tutorial.my_implicit_mf_model`)
ML.RECOMMEND
에 Query Exceeded Resource Limits
오류가 발생하면 더 높은 결제 등급으로 다시 시도하세요. BigQuery 명령줄 도구에서 --maximum_billing_tier
를 사용하여 설정할 수 있습니다.
추천 생성
다음 쿼리는 ML.RECOMMEND
를 사용하여 visitorId
마다 상위 5개의 추천 contentId
를 출력합니다.
#standardSQL SELECT visitorId, ARRAY_AGG(STRUCT(contentId, predicted_rating_confidence) ORDER BY predicted_rating_confidence DESC LIMIT 5) AS rec FROM `bqml_tutorial.recommend_content` GROUP BY visitorId
쿼리 세부정보
SELECT
문은 GROUP BY visitorId
를 사용해서 contentId
와 predicted_rating_confidence
를 내림차순으로 집계하여 ML.RECOMMEND
쿼리의 결과를 집계하고 상위 5개의 콘텐츠 ID만 유지합니다.
이전의 추천 쿼리를 사용하여 예측 평점을 기준으로 정렬하고 각 사용자의 최상위 예측 항목을 출력할 수 있습니다. 다음 쿼리는 item_ids
를 이전에 업로드된 movielens.movie_titles
테이블에 있는 movie_ids
와 조인하고 사용자마다 상위 5개의 추천 영화를 출력합니다.
ML.RECOMMEND
쿼리 실행
방문자 ID당 상위 5개의 추천 콘텐츠 ID를 출력하는 ML.RECOMMEND
쿼리를 실행하려면 다음 안내를 따르세요.
Google Cloud 콘솔에서 새 쿼리 작성 버튼을 클릭합니다.
쿼리 편집기 텍스트 영역에 다음 GoogleSQL 쿼리를 입력합니다.
#standardSQL CREATE OR REPLACE TABLE `bqml_tutorial.recommend_content` OPTIONS() AS SELECT * FROM ML.RECOMMEND(MODEL `bqml_tutorial.my_implicit_mf_model`)
실행을 클릭합니다.
쿼리 실행이 완료되면 Google Cloud 콘솔의 탐색 패널에 (
bqml_tutorial.recommend_content
)가 표시됩니다. 이 쿼리는CREATE TABLE
문을 사용하여 테이블을 만들기 때문에 쿼리 결과가 표시되지 않습니다.다른 새 쿼리를 작성합니다. 이전 쿼리 실행이 완료되면 쿼리 편집기 텍스트 영역에 다음 GoogleSQL 쿼리를 입력합니다.
#standardSQL SELECT visitorId, ARRAY_AGG(STRUCT(contentId, predicted_rating_confidence) ORDER BY predicted_rating_confidence DESC LIMIT 5) AS rec FROM `bqml_tutorial.recommend_content` GROUP BY visitorId
(선택사항) 처리 위치를 설정하려면 더보기 > 쿼리 설정을 클릭합니다. 데이터 위치에
US
를 선택합니다. 처리 위치는 데이터 세트 위치를 기준으로 자동 감지되므로 이 단계는 선택사항입니다.실행을 클릭합니다.
쿼리가 완료되면 쿼리 텍스트 영역 아래의 결과 탭을 클릭합니다. 다음과 같은 결과가 표시됩니다.
삭제
이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.
- 만든 프로젝트를 삭제할 수 있습니다.
- 또는 프로젝트를 유지하고 데이터 세트를 삭제할 수 있습니다.
데이터 세트 삭제
프로젝트를 삭제하면 프로젝트의 데이터 세트와 테이블이 모두 삭제됩니다. 프로젝트를 다시 사용하려면 이 튜토리얼에서 만든 데이터 세트를 삭제할 수 있습니다.
필요한 경우 Google Cloud 콘솔에서 BigQuery 페이지를 엽니다.
앞서 만든 bqml_tutorial 데이터 세트를 탐색에서 선택합니다.
창의 오른쪽에 있는 데이터 세트 삭제를 클릭합니다. 데이터 세트, 테이블, 모든 데이터가 삭제됩니다.
데이터 세트 삭제 대화상자에서 데이터 세트 이름(
bqml_tutorial
)을 입력하여 삭제 명령어를 확인한 후 삭제를 클릭합니다.
프로젝트 삭제
프로젝트를 삭제하는 방법은 다음과 같습니다.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
다음 단계
- 머신러닝 단기집중과정을 참조하여 머신러닝 알아보기
- BigQuery ML 개요는 BigQuery ML 소개를 참조하세요.
- Google Cloud 콘솔에 대한 자세한 내용은 Google Cloud 콘솔 사용을 참조하세요.