A/B 실험 모니터링 및 분석

이 페이지에서는 A/B 실험 트래픽을 모니터링하고 Search for Retail 콘솔에서 검색을 위해 중요한 비즈니스 측정항목을 비교하는 방법을 설명합니다.

개요

A/B 실험을 수행하면 기존 검색 구현과 Vertex AI Search for Retail 사이의 중요한 비즈니스 측정항목을 비교할 수 있습니다.

실험 및 트래픽 분할을 설정한 후에는 Search for Retail 콘솔의 실험 페이지를 사용하여 실험 트래픽을 모니터링하고 비즈니스 측정항목을 열람할 수 있습니다.

콘솔에서 A/B 실험 모니터링을 설정하려면 이름, 기간, 실험 옵션 정보와 같은 A/B 테스트에 대한 정보를 입력해야 합니다. 각 실험 옵션은 A/B 실험을 위해 만든 실험 그룹에 매핑되며, 여기서 콘솔에서 설정한 첫 번째 부문이 기준 대조군으로 취급됩니다.

각 실험에는 A/B 테스트가 올바르게 설정되었는지 확인하는 데 도움이 되는 트래픽 분할 측정항목을 보여주는 모니터링 탭이 포함되어 있습니다. 이는 편향이 A/B 테스트 결과에 영향을 미쳤는지 확인하는 데 매우 중요합니다. 예를 들어 탐색의 일반적인 문제 중 하나는 일부 쿼리 또는 카테고리가 하나의 실험 옵션에서만 제공되는지 여부입니다.

또한 각 실험에는 중요한 비즈니스 측정항목 비교를 확인할 수 있는 애널리틱스 탭이 포함되어 있습니다. 포함된 비즈니스 측정항목 카테고리는 두 가지입니다.

  • 검색당 클릭 수와 같은 검색당 또는 탐색당 측정항목
  • 탐색 방문당 수익과 같은 검색당 또는 탐색 방문당 측정항목

전체 측정항목 목록은 측정항목 목록을 참조하세요.

각 비즈니스 측정항목은 원시 값, 기준 대조군 대비 상대적 상승, 95% 신뢰 구간을 제공합니다. 집계된 측정항목 및 날짜별 측정항목을 모두 볼 수 있습니다.

트래픽 모니터링 탭에는 의도치 않은 트래픽 분할이 발생했는지 여부와 분할이 발생한 날짜가 표시됩니다. 의도치 않은 트래픽 분할은 실제 트래픽 분할 비율을 모니터링을 설정할 때 입력하는 의도한 분할 비율과 비교하여 확인됩니다. 상대적 차이가 10% 이하면 트래픽 분할이 정상으로 간주됩니다. 예를 들어 트래픽이 두 부문에 균등하게 분할되는 경우 45%에서 55%의 실제 분할은 의도된 범위 내에 있습니다.

콘솔을 사용하여 여러 실험을 동시에 모니터링할 수 있습니다.

날짜별로 분할된 실험 날짜 및 측정항목은 America/Los_Angeles를 시간대로 사용하고, America/Los_Angeles 시간 오전 12시를 시작일과 종료일에 사용합니다.

실험 진행, 완료 또는 대기 여부에 관계없이 언제든지 시작일 및 종료일, 변형 옵션 수, 실험 ID, 의도된 트래픽 분할 비율과 같은 실험 세부정보를 콘솔에서 업데이트할 수 있습니다. 데이터는 소급적으로 업데이트됩니다.

A/B 실험의 모니터링 및 분석에는 다음과 같은 요구사항/제한사항이 있습니다.

  • 추적할 수 있는 실험 데이터의 최대 시간 범위는 180일입니다. 실험이 180일 전에 시작된 경우 180일보다 오래된 측정항목은 캡처되지 않습니다.

  • 쿼리당 또는 카테고리당 트래픽 모니터링은 모든 실험 변형에서 트래픽이 가장 높은 상위 100개의 쿼리 또는 카테고리만 반환합니다.

시작하기 전에

A/B 실험을 위해 Search for Retail 콘솔에서 모니터링을 설정하기 전에 다음을 수행합니다.

  • 기존 검색 구현과 Vertex AI Search for Retail을 통해 제공된 이벤트에 대해 사용자 이벤트 수집을 설정합니다.

  • A/B 실험 권장사항을 검토합니다.

  • Google 최적화 도구 또는 Optimizely와 같은 타사 실험 플랫폼을 사용하여 실험을 설정합니다.

  • 각 실험 그룹에 대해 사용자 이벤트 experimentIds를 설정하고 확인합니다. 실험 모니터링을 설정할 때는 각 변형 옵션에 대한 실험 ID를 지정해야 합니다.

콘솔에서 실험 추가

다음 절차에 따라 Search for Retail 콘솔에서 모니터링할 새 실험을 추가합니다.

이 절차에서는 Search for Retail 콘솔에서 제3자 실험 플랫폼에서 만든 기존 실험 그룹에 해당하는 변형 옵션을 만듭니다. 변형 옵션이 기존 실험 그룹에 매핑되는 방법의 예시는 실험 설정의 예시를 참조하세요.

실험 세부정보 추가

콘솔에 실험을 추가하고 세부정보를 입력합니다.

  1. Search for Retail 콘솔에서 실험 페이지로 이동합니다.

    실험 페이지로 이동

  2. 실험 추가를 클릭합니다.

    새 실험 페이지가 열립니다.

  3. 실험 이름을 입력합니다

  4. 실험 시작일과 종료일을 선택합니다.

    실험 트래픽이 점진적으로 증가하도록 설정된 경우 시작일을 증가가 완료되고 트래픽 분할이 안정화된 날짜로 설정합니다.

  5. 이 실험이 추적하는 활동의 유형을 선택합니다.

    • 탐색: 페이지 카테고리에 따라 사이트를 탐색합니다. 탐색 활동은 검색 응답에 빈 쿼리로 표시됩니다.

    • 검색: 사이트에서 텍스트 쿼리로 검색하는 경우입니다.

이제 실험에 사용할 변형 옵션을 만드세요.

옵션 추가

콘솔에 실험 세부정보를 추가한 후 각 실험 그룹에 해당하는 변형 옵션을 만듭니다.

설정하는 첫 번째 변형 옵션은 기준 옵션입니다. 기준은 일반적으로 기존 솔루션을 나타냅니다.

시작하기 전에 각 실험 그룹에 대한 사용자 이벤트 experimentIds가 있는지 확인합니다.

  1. 변형 옵션 추가를 클릭합니다.

    변형 옵션 만들기 패널이 열립니다.

  2. 이 변형 옵션에서 모니터링할 실험 설정과 관련된 사용자 이벤트 experimentId를 입력하세요.

    • 첫 번째 변형 옵션을 설정하는 경우: 기준으로 사용할 기준 그룹과 연결된 사용자 이벤트 experimentId를 입력합니다.

    • 기준 변형 옵션을 이미 설정한 경우: 다음 실험 그룹과 연결된 사용자 이벤트 experimentId를 입력합니다.

  3. 이 변형 옵션에 인간이 읽을 수 있는 이름을 입력하세요.

    이 이름은 콘솔의 모니터링 대시보드에 표시됩니다.

  4. (선택사항) 이 변형 옵션에 대한 설명을 제공합니다.

  5. 서빙 트래픽 대상을 선택합니다.

    • Google Vertex AI Search for Retail API: 이 변형이 Vertex AI Search for Retail 결과의 트래픽을 모니터링하는 경우에 선택합니다.

    • 외부: 이 변형 옵션에서 외부 서비스의 결과에 대한 트래픽을 모니터링하는 경우에 선택합니다. 예를 들어 기준(또는 통제) 변형 옵션은 기존 서비스의 트래픽을 Vertex AI Search for Retail 트래픽과 비교할 때 외부 대상일 가능성이 높습니다.

  6. 만들기를 클릭하여 변형 옵션 만들기를 마칩니다.

    변형 옵션은 새 실험 페이지에 표시됩니다.

  7. 이전 단계를 반복하여 모니터링할 각 실험 그룹과 연결된 변형 옵션을 만듭니다.

    하나 이상의 외부 변형 옵션과 하나의 Google Vertex AI Search for Retail API 변형 옵션이 있어야 합니다.

  8. (선택사항) 기본적으로 의도한 트래픽 비율은 모든 변형 옵션에 균등하게 분할됩니다. 의도한 트래픽 비율을 맞춤설정하려면 다음 안내를 따르세요.

    1. 옵션 추가 섹션의 트래픽 비율(%) 열에서 트래픽 백분율 값을 클릭합니다.

      트래픽 비율 패널이 열립니다.

    2. 가중치 분포 필드에서 커스텀 비율을 선택합니다.

    3. 각 변형 옵션의 트래픽 비율(%) 열에 원하는 트래픽 비율을 입력합니다.

      모든 변형 옵션의 총 트래픽 비율은 100%가 되어야 합니다.

    4. 완료를 클릭합니다.

      트래픽 비율 패널이 닫힙니다.

  9. 새 실험 페이지에서 만들기를 클릭하여 실험 만들기를 마칩니다.

    실험이 온보딩 실험 페이지에 표시됩니다.

실험 설정의 예

이 섹션에서는 실험 설정의 두 가지 예시를 보여줍니다.

예시 1은 하나의 기준 통제와 하나의 Vertex AI Search for Retail 실험 환경을 보여줍니다.

예시 2는 2개의 Vertex AI Search for Retail 실험 그룹이 포함된 기준 통제를 비교해서 보여줍니다.

예시 1: 변형 옵션 2개

이 예시에서는 다음과 같이 A/B 실험을 설정하려고 합니다.

  • 검색 요청 중 20%가 사내 검색 엔진에 기준 통제 그룹으로 전송됩니다.
  • 검색 요청 중 20%가 Google Vertex AI Search for Retail API에 실험 그룹으로 전송됩니다.
  • 60%는 A/B 테스트에 포함되지 않은 홀드아웃 그룹으로 전송됩니다.

요청 및 사용자 이벤트 구성은 다음과 같습니다.

트래픽 유형 검색 엔진 event.experimentIds event.attributionToken 트래픽 비율(%)
제어 트래픽 사내 CONTROL 해당 사항 없음 20%
실험 트래픽 Google Vertex AI Search for Retail API EXPERIMENT 검색 응답의 기여 분석 토큰 20%
홀드아웃 트래픽 둘 중 하나/둘 다 해당 사항 없음 검색 엔진에 따라 다름 60%

홀드아웃 트래픽은 사내 검색 엔진, Vertex AI Search for Retail 또는 둘 다에서 서빙될 수 있습니다. 이는 A/B 테스트에 속하지 않으므로 실험 ID가 없습니다. A/B 테스트에 포함된 사용자 이벤트를 표시하려면 experimentIdsattributionToken 정보를 제공해야 합니다. 사용자의 experimentId 문자열은 이 예시에 표시된 것과 다를 수 있습니다. 사용하는 ID가 실험과 사용자 이벤트 간에 일관적인지 확인합니다.

홀드아웃 그룹은 실험의 일부가 아니므로 콘솔에서 해당 실험을 만들 때 두 개의 변형 옵션만 만들 것입니다. 두 변형 옵션 간에 의도한 트래픽 비율은 50%/50%입니다.

이 실험 예시를 모니터링하려면 콘솔에서 각 실험 그룹의 해당 변형 옵션을 만듭니다. 다음 테이블은 이 예시에서 변형 옵션 설정 중에 콘솔에 입력하는 정보를 보여줍니다.

변형 옵션 이름 트래픽 대상 사용자 이벤트 실험 ID 의도한 트래픽 비율
제어 부문 예시 외부 제어 50%
실험 옵션 예시 Google Vertex AI Search for Retail API 실험 50%

예시 2: 변형 옵션 3개

이 예시에서는 헤드 쿼리(빈도가 높은 쿼리)에 A/B 실험을 수행하고 동적 패싯을 켜거나 끈다고 가정해 보겠습니다. 요청 및 사용자 이벤트 구성은 다음과 같습니다.

변형 옵션 이름 트래픽 대상 event.experimentIds event.attributionToken 트래픽 비율(%)
헤드 쿼리 제어 사내 제어 해당 사항 없음 헤드 쿼리의 50%
헤드 쿼리 동적 패싯 켜기 실험 Google Vertex AI Search for Retail API EXP_DF_ON 검색 응답의 기여 분석 토큰 헤드 쿼리의 25%
헤드 쿼리 동적 패싯 끄기 실험 Google Vertex AI Search for Retail API EXP_DF_OFF 검색 응답의 기여 분석 토큰 헤드 쿼리의 25%
헤드가 아닌 쿼리와 기타 홀드아웃 Google Vertex AI Search for Retail API 해당 사항 없음 사용된 엔진에 따라 다름 해당 사항 없음

이 실험 예시를 모니터링하려면 콘솔에서 각 실험 그룹의 해당 변형 옵션을 만듭니다. 다음 테이블은 이 예시에서 변형 옵션 설정 중에 콘솔에 입력하는 정보를 보여줍니다.

변형 옵션 이름 트래픽 대상 사용자 이벤트 실험 ID 의도한 트래픽 비율
제어 부문 예시 외부 제어 50%
실험 옵션 1 예시 Google Vertex AI Search for Retail API EXP_DF_ON 25%
실험 옵션 2 예시 Google Vertex AI Search for Retail API EXP_DF_OFF 25%

트래픽 측정항목

실험의 모니터링 페이지에 다음 측정항목에 대한 의도하지 않은 트래픽 분할이 있는지 여부가 표시됩니다.

  • 날짜별 검색/탐색 이벤트 수
  • 날짜별 검색/탐색 방문자 수
  • 카테고리별 검색/탐색 이벤트 수

이러한 측정항목 중 하나에 의도하지 않은 트래픽 분할이 발생하면 모니터링 페이지 상단의 카드에 의도하지 않은 트래픽 분할이 발생한 날짜가 표시됩니다. 의도하지 않은 트래픽 분할을 클릭하여 해당 측정항목의 의도하지 않은 트래픽 분할을 나열하는 필터링 가능한 테이블을 확인합니다.

실험 모니터링 페이지의 다음 테이블에서는 사용량에 따라 변형 옵션 간 트래픽 측정항목을 비교합니다. 테이블 제목 옆의 더보기를 클릭하여 해당 측정항목의 모든 트래픽 분할을 나열하는 필터링 가능한 테이블을 확인합니다.

  • 날짜별 검색/찾아보기 이벤트 수: 지정된 날짜의 변형 옵션에서 발생한 총 검색 또는 탐색 수입니다.

  • 날짜별 검색/찾아보기 방문자 수: 지정된 날짜에 변형 옵션에서 쿼리하거나 탐색한 방문자 수입니다.

  • 카테고리별 검색/찾아보기 이벤트 수: 실험 시작일부터 종료일(실험이 진행 중인 경우 오늘)까지 특정 쿼리 또는 카테고리에서 변형 옵션을 검색한 총 횟수입니다. 이 테이블에는 실험 내 모든 변형 옵션의 총 트래픽 측면에서 상위 100개 쿼리 또는 카테고리만 표시됩니다.

실험 모니터링

온보딩 실험 페이지에 최근 실험의 테이블이 표시됩니다.

실험을 모니터링하려면 다음 안내를 따르세요.

  1. Search for Retail 콘솔에서 실험 페이지로 이동합니다.

    실험 페이지로 이동

  2. 실험 이름을 클릭합니다.

    해당 실험의 모니터링 페이지가 열립니다.

  3. 페이지에서 의도하지 않은 트래픽 분할을 검토합니다.

    각 측정항목에는 의도하지 않은 트래픽 분할이 발생한 날짜가 표시됩니다.

  4. 의도하지 않은 분할이 표시되면 의도하지 않은 트래픽 분할을 클릭하여 해당 측정항목의 의도하지 않은 트래픽 분할을 나열하는 필터링 가능한 테이블을 확인합니다.

의도하지 않은 트래픽 분할 해결

Search for Retail 콘솔에서 실험을 모니터링하면 실험의 잠재적 문제에 주의를 집중하는 데 도움이 될 수 있습니다.

의도하지 않은 트래픽 분할이 발생하면 이벤트에 올바른 실험 ID가 태그되었는지 확인합니다. 예를 들어 잘못된 실험 ID로 태그가 지정된 통제 그룹에 속한 이벤트는 잘못된 변형 옵션의 원인이 될 수 있습니다.

이벤트 태그 지정이 올바르게 작동하는 경우 Search for Retail 콘솔에서 보고된 의도치 않은 트래픽 분할은 실험 플랫폼의 트래픽 분할 문제를 나타낼 수 있습니다. 이 경우에 해당하면, 실험으로 잘못된 결과가 생성되지 않도록 문제를 해결하기 전에 A/B 테스트를 일시중지합니다.

분석을 위한 비즈니스 측정항목

두 가지 비즈니스 측정항목 그룹을 사용할 수 있습니다.

  • 검색당 또는 탐색당 측정항목
  • 검색 방문당 또는 탐색 방문당

검색 방문당 측정항목

검색 방문당 측정항목 정의는 아래에 나열되어 있습니다. 탐색 방문당 측정항목 정의는 검색 방문당 측정항목과 비슷하지만 검색이라는 용어가 모두 탐색으로 대체되었습니다.

구매주문서 요율에서 하나의 구매주문서에는 여러 개의 SKU가 포함될 수 있습니다. 각 SKU에는 하나 이상의 수량이 포함될 수 있습니다.

측정항목 이름 정의
검색 방문 수 하나 이상의 검색이 포함된 방문 수
페이지 조회율 클릭 수(페이지 조회) / 검색 방문 수
장바구니에 추가(ATC) 비율 검색 방문의 장바구니 추가 단위 수 / 검색 방문 수
구매주문서 비율 검색 방문의 구매주문서 수 / 검색 방문 수
수익률 검색 방문의 수익 합계 / 검색 방문 수
평균 주문 금액(AOV) 검색 방문의 수익 합계 / 검색 방문의 구매주문서 수

검색당 측정항목

검색당 측정항목 정의는 아래에 나열되어 있습니다. 탐색당 측정항목 정의는 검색당 측정항목과 비슷하지만 검색이라는 용어가 모두 탐색으로 대체되었습니다.

측정항목 이름 정의
검색 횟수 검색 이벤트 수
결과 없음 비율 결과가 없는 검색 이벤트 수 / 검색 수
클릭률(CTR) 검색 기반 클릭수(페이지 조회수) / 검색 수
장바구니에 추가(ATC) 비율 검색 기반 장바구니에 추가 단위 수 / 검색 수
구매율 검색 기반 구매 단위 수 / 검색 수
수익률 검색 기반 수익 합계 / 검색 수
평균 단위 값(AUV) 검색 기반 수익 합계 / 검색 기반 구매 단위 수

실험 비즈니스 성능 분석

각 실험의 분석 탭에는 비즈니스 측정항목 대시보드가 표시됩니다. 대시보드에는 변형 옵션 간의 성능 비교가 표시됩니다.

측정항목에는 두 가지 대시보드가 있습니다.

  • 검색 방문당 및 탐색 방문당 측정항목
  • 검색당 및 탐색당 측정항목

각 검색 측정항목 또는 탐색 측정항목은 실험의 ProductType 속성을 기준으로 표시됩니다.

각 대시보드에는 날짜 범위 필터에 표시된 날짜에 걸쳐서 집계된 측정항목 결과를 보여주는 요약 측정항목 테이블이 표시됩니다. 기본 날짜 값은 실험 시작일과 종료일입니다.

각 측정항목은 집계된 결과 테이블과 더 자세한 정보를 제공하는 일일 값 차트로 표시됩니다.

집계된 테이블 날짜 범위에는 실험의 시작일 및 종료일이 기본 날짜 값으로 사용됩니다. 실험이 상시로 진행되면 종료일이 현재 날짜로 설정됩니다. 날짜 범위 필터는 수정할 수 있습니다. 수집된 사용자 이벤트에 userAgent가 제공되면 기기 유형별로 측정항목을 분할할 수도 습니다. 새로고침 아이콘을 클릭하여 수정된 필터를 측정항목에 적용합니다.

측정항목 상대적 상승이 신뢰 구간 대역폭을 초과할 만큼 긍정적인 경우 해당 옵션에 녹색 배경 색상이 표시됩니다. 마찬가지로 상대적 상승이 충분히 부정적이면 해당 변형에 대해 빨간색 배경색이 표시됩니다. 상대적 상승이 신뢰 구간 폭보다 작을 때 회색 배경색은 결과에 통계적 유의성이 부족함을 나타냅니다.

예를 들어 변형 옵션과 기준 대조군을 비교할 때 다음과 같습니다.

  • 측정항목 검색당 클릭률이 +3.0%이고 리프트 CI로서 표시되는 신뢰 구간이 [2.1%, 4.0%]이면 변형 옵션은 녹색으로 강조표시되어 기준 대조군에 비해 이 측정항목의 성능이 더 높음을 나타냅니다.
  • 측정항목 찾아보기 방문당 수익률이 -1.5%이고 신뢰 구간이 [-2.6%, -0.4%]인 경우 변형 옵션이 빨간색으로 강조표시되어, 기준 대조군에 비해 이 측정항목의 성능이 낮음을 나타냅니다.
  • 측정항목 검색당 평균 단위 값이 +1.0%이고 신뢰 구간이 [-1.1%, 3.0%]이면 변형 옵션이 회색으로 강조표시되어 아직 성능 차이에서 통계적 유의성이 없음을 나타냅니다.

일반적으로 데이터 포인트가 많을수록 분산이 줄어듭니다. 몇 주 간의 누적 측정항목은 일일 측정항목보다 신뢰 구간 대역폭이 낮으며, 통계적 유의성을 보여줄 가능성이 높습니다.

실험 세부정보 수정

실험 진행, 완료 또는 대기 여부에 관계없이 언제든지 시작일 및 종료일, 변형 옵션 수, 실험 ID, 의도된 트래픽 분할 비율과 같은 실험 세부정보를 콘솔에서 업데이트할 수 있습니다. 데이터는 소급적으로 업데이트됩니다.

실험 세부정보를 수정하려면 다음 안내를 따르세요.

  1. Search for Retail 콘솔에서 실험 페이지로 이동합니다.

    실험 페이지로 이동

  2. 최근 실험을 보여주는 테이블에서 수정할 실험을 찾습니다.

  3. 테이블 행 오른쪽에 있는 점 3개로 된 작업 아이콘을 클릭하고 수정을 클릭합니다.

    실험 수정 페이지가 열립니다.

  4. 업데이트할 실험 필드를 수정합니다.

  5. Update(업데이트)를 클릭하여 변경사항을 저장합니다.

콘솔에서 실험 삭제

Search for Retail 콘솔에서 실험을 삭제하려면 다음 안내를 따르세요.

  1. Search for Retail 콘솔에서 실험 페이지로 이동합니다.

    실험 페이지로 이동

  2. 최근 실험을 보여주는 테이블에서 삭제할 실험을 찾습니다.

  3. 테이블 행 오른쪽에 있는 점 3개로 된 작업 아이콘을 클릭하고 삭제를 클릭합니다.

    실험을 삭제할까요? 확인 창이 열립니다.

  4. 실험 이름을 입력하고 확인을 클릭하여 삭제를 확인합니다.

    삭제가 완료되면 실험이 성공적으로 삭제되었다는 메시지가 콘솔에 표시됩니다.