콘텐츠로 이동하기
AI 및 머신러닝

생성형 AI 성과 측정: 올바른 선택을 위한 KPI 심층 탐구

2025년 1월 16일
https://storage.googleapis.com/gweb-cloudblog-publish/images/GettyImages-1472372595.max-2600x2600.jpg
Hussain Chinoy

Technical Solutions Manager, Applied AI Engineering

Amy Liu

Head of AI Solutions, Value Creation

사용 중인 생성형 AI의 효과를 측정하고 싶으신가요? 모델 정확성, 운영 효율성, 사용자 참여도, 재무적 영향을 추적하여 AI 투자가 가시적인 ROI 달성으로 이어지도록 보장하는 데 도움이 되는 KPI를 소개합니다.

영업 대표 연락하기

귀하의 클라우드에 대한 이슈를 전문 영업 대표를 통해 논의해보세요.

연락하기

* 본 아티클의 원문은 2024년 11월 26일 Google Cloud 블로그(영문)에 게재되었습니다.

'측정하지 않으면 관리할 수 없다'는 말이 있습니다. 핵심성과지표(KPI)는 비즈니스와 기술 성과 달성의 기반으로, 팀과 프로젝트의 진행 상황을 추적하는 데 사용할 수 있는 명확한 기준을 제시합니다. 생성형 AI를 도입할 때도 KPI는 AI 모델의 성능을 객관적으로 평가하고, 이니셔티브를 비즈니스 목표와 연계하며, 데이터를 바탕으로 조정하고, AI 프로젝트의 전반적인 가치를 입증하는 등 성과를 측정하는 데 핵심적인 역할을 합니다.

앞서 논의한 대로, 생성형 AI 프로젝트의 성과를 측정하기 위해서는 새로운 AI 측정항목과 접근방식을 개발해야 합니다. 하지만 대부분의 조직은 시스템 성능 및 도입과 관련된 중요한 측정항목은 간과한 채 다른 유형의 AI 기술 추적에 활용한 것과 동일한 계산 기반 모델 품질 KPI를 사용하고 있는 것으로 나타났습니다. 또한 비즈니스 가치를 측정하는 데 충분한 시간을 투자하지 않고, 운영 효율성 향상과 최종 목표를 혼동하는 경우도 많습니다.

이 게시물에서는 모든 구체적인 측정항목, 이를 사용하여 투자의 효과를 극대화하는 방법 등 생성형 AI의 효과를 측정하는 데 필수적인 KPI를 자세히 살펴보겠습니다.

모델 품질 KPI

모델 품질 측정항목은 AI 모델 출력의 정확성과 효과를 이해하는 데 필수적입니다. 계산 기반 모델 측정항목은 출력 범위가 제한된(특정 범위나 파라미터 모음으로 제한된 응답) 모델을 평가할 때 매우 효과적입니다. 제품 검색 AI 모델을 평가할 때도 이러한 측정항목을 사용하면 참조 데이터 세트를 기준으로 간단히 출력을 비교할 수 있습니다. 예를 들어 정밀도는 노출된 제품이 검색어에 얼마나 적합한지 측정하고, 재현율은 모든 관련 제품 중 모델이 포착한 비율을 측정하며, F1 점수는 정밀도와 재현율을 균형 있게 절충한 평균 점수를 제공합니다.

생성형 AI에는 독창적이거나 예기치 못한 콘텐츠, 때로는 유해한 다양한 콘텐츠를 제한 없이 생성할 수 있는 특성이 있으므로 보다 주관적인 평가가 필요합니다. 모델 기반 측정항목은 자동 평가 도구(평가 용도로 설계된 대규모 언어 모델)를 사용하여 창의성, 정확성, 관련성을 평가하는 서술적 평가 기준에 근거해 성능을 평가합니다. 평가 모델은 평가용 템플릿을 기반으로 모델의 응답을 자동으로 분석하여 출력의 품질을 측정할 수 있습니다.

모델 성능에 관한 정량적 측정항목을 생성하는 일반적인 방법에는 다음 두 가지가 있습니다.

  1. 점별 측정항목: 후보 모델의 출력을 평가 기준에 따라 평가합니다. 이러한 측정항목은 스코어링 기준표를 정의하기 어렵지 않은 경우에 효과적입니다. 예를 들어 기준에 미달하는 응답은 0점, 기준을 충족하는 응답은 5점으로 정하고 0~5점으로 점수를 매길 수 있습니다.

쌍별 측정항목: 두 모델의 응답을 비교해 더 우수한 결과를 골라 승률을 생성합니다. 이 측정항목은 후보 모델과 기준 모델의 비교 평가에 자주 사용됩니다. 이러한 측정항목은 스코어링 기준표를 정의하기 어렵고 선호도 평가로 충분한 경우에 유용합니다.

현재 모델 기반 측정항목은 아직 실험 중인 단계이므로 인간 평가자를 고용하여 모델을 직접 평가하는 조직이 많습니다. 사실, 자동 평가 도구를 사용해 수행한 모델 기반 평가 결과를 인간 평가자가 보정해 품질을 보장하는 방식에도 관심을 둘 필요가 있습니다. 이 방식을 사용하면 다음과 같이 더 다양한 평가 기준을 활용할 수 있습니다.

  • 일관성: 프롬프트를 기반으로 모델이 얼마나 일관된 응답을 생성하는지를 측정합니다.
  • 유창성: 프롬프트를 기반으로 모델이 얼마나 유창하게 언어를 구사하는지를 측정합니다.
  • 안전성: 응답이 무해한 정도를 측정합니다.
  • 그라운딩: 프롬프트에만 포함된 정보를 제공 또는 참조하는 능력을 측정합니다.
  • 안내 준수 수준: 프롬프트에서 제공하는 안내를 모델이 얼마나 잘 따르는지를 평가합니다.
  • 세부정보 수준: 너무 길거나 짧지 않으면서도 충분한 세부정보를 제공할 수 있는 능력과 간결성을 측정합니다.
  • 텍스트 품질: 모델의 응답이 프롬프트를 직접적으로 다루는 정보를 얼마나 명확하고 정확하며 흥미롭게 전달하는지를 측정합니다.
  • 요약 품질: 모델의 텍스트 요약 능력을 종합적으로 측정합니다.

용도: 모델 기반 측정항목은 긴 형식 텍스트, 복잡한 코드, 이미지 같은 비정형의 무제한 출력을 생성하여 참조 데이터 세트와 비교하기 어려운 모델을 평가할 때 적합합니다. 이러한 다양한 측정항목을 추적함으로써 모델의 장점과 약점을 종합적으로 이해하고, 이를 바탕으로 타겟에 맞게 개선하며 높은 품질의 출력을 보장할 수 있습니다.

시스템 품질 KPI

앞서 기술한 내용처럼 생성형 AI의 잠재력을 최대로 활용하며 조직을 뒷받침하려면 엔드 투 엔드 AI 플랫폼에 투자해야 합니다. 이러한 플랫폼을 운영하기 위해서는 대규모 모델 개발, 파인 튜닝, 배포, 관리에 필요한 핵심 구성요소를 모두 원활하게 통합하는 동시에 배포, 응답성, 리소스 사용률을 포함한 AI 시스템의 다양한 측면에서 성능을 측정할 수 있어야 합니다.

시스템 측정항목을 사용하면 AI 시스템의 운영 측면에 초점을 맞춰, 시스템이 대규모로 효율적이고 안정적으로 실행되도록 함으로써 조직 전반의 니즈를 지원할 수 있습니다. 이러한 측정항목은 AI 플랫폼과 인프라의 상태, 성능, 영향을 이해하는 데 중요한 인사이트를 제공합니다.

배포 측정항목

이미 배포된 파이프라인과 모델 아티팩트의 수를 추적하면 AI 플랫폼의 용량, 거버넌스, 조직 전반에 미치는 영향에 대한 인사이트를 얻을 수 있습니다. 가장 흔히 사용되는 몇 가지 측정항목을 소개합니다.

  • 배포된 모델 수: 이 측정항목은 현재 사용자나 애플리케이션에 예측을 서빙 중인 모델 수를 측정합니다. 이 측정항목을 통해 AI를 자체적으로 빌드했는지, 아니면 구매했는지를 알 수 있습니다.
  • 모델 배포 시간: 이 측정항목은 새 모델을 배포하거나 기존 모델을 업데이트하는 데 소요되는 평균 시간을 측정하여 배포 프로세스의 속도를 측정합니다. 이 측정항목은 배포 파이프라인의 병목 현상을 파악하는 데 도움이 됩니다.
  • 자동화된 파이프라인 비율: 이 측정항목은 전체 AI 모델 수명 주기에서 자동화된 워크플로의 비율을 측정합니다. 이 측정항목은 수작업이 필요한 정도와 자동화에 투자해야 하는 영역을 이해하는 데 도움이 됩니다.
  • 모니터링 중인 모델 비율: 이 측정항목은 배포된 모델 중 데이터 분포의 변화 또는 모델 성능 저하를 활발하게 모니터링 중인 모델의 수를 측정합니다. 이 측정항목은 시간이 지나도 모델 효과성을 그대로 유지하는 데 필수적입니다.
https://storage.googleapis.com/gweb-cloudblog-publish/images/Gemini-at-work-7-minutes-yt-hero.max-1300x1300.jpg

안정성 및 반응성 측정항목

사용자 경험을 향상하고 모델과 애플리케이션 성능을 관리하려면 AI 플랫폼이 요청에 얼마나 빨리 응답하는지를 추적하는 것이 매우 중요합니다. 가장 흔히 사용되는 몇 가지 측정항목을 소개합니다.

  • 업타임: 시스템이 가용 상태로 운영되는 시간의 비율입니다. 업타임이 높을수록 안정성과 가용성이 높다는 의미입니다.
  • 오류율: 오류의 원인이 된 요청의 비율입니다. 오류 유형을 이해하면 할당량, 용량, 데이터 검증, 사용자 입력 오류 등과 같은 시스템의 근본적인 문제에 대해 중요한 인사이트를 얻을 수 있습니다.
  • 모델 지연 시간: 생성형 AI 모델이 요청을 처리하고 응답을 생성하는 데 소요되는 시간입니다. 이 측정항목으로는, 기대에 미치지 못하는 사용자 경험을 식별하고 하드웨어 업그레이드에 대한 니즈를 파악할 수 있습니다.
  • 검색 지연 시간: 시스템에서 요청을 처리하고, 애플리케이션에서 추가 데이터를 가져오며, 응답을 반환하는 데 걸리는 시간입니다. 실시간 데이터에 의존하는 애플리케이션의 경우 검색 지연 시간을 최적화하는 것이 매우 중요합니다.

처리량 및 사용률

처리량과 리소스 사용률을 추적하면 시스템의 처리 용량을 확인할 수 있습니다. 이러한 측정항목은 성능을 최적화하고, 비용을 관리하며, 리소스를 보다 효과적으로 할당하는 데 도움이 됩니다. 가장 흔히 사용되는 몇 가지 측정항목을 소개합니다.

  • 요청 처리량: 시스템에서 시간 단위당 처리할 수 있는 요청의 양입니다. 이 측정항목을 사용하면 높은 요청량을 수용하기 위한 버스트 용량의 니즈를 파악하고 HTTP 429 오류(요청한 횟수가 너무 많음)를 최소화할 수 있습니다.
  • 토큰 처리량: AI 플랫폼에서 시간 단위당 처리할 수 있는 토큰의 양입니다. 파운데이션 모델에 새로운 모달리티와 더 큰 컨텍스트 윈도우가 도입됨에 따라 이 측정항목은 적절한 크기 조정과 사용량을 보장하는 데 매우 중요한 지표가 되고 있습니다.
  • 서빙 노드: 수신되는 요청을 처리하는 인프라 노드 또는 인스턴스의 수입니다. 이 측정항목은 용량을 모니터링하여 안정적인 상태일 때의 수요와 가장 바쁜 시간일 때의 수요에 맞게 적절한 리소스를 제공하는 데 도움이 됩니다.
  • GPU/TPU 가속기 사용률: GPU나 TPU 같은 특수 하드웨어 가속기가 데이터 처리에 활용되는 시간의 비율을 측정합니다. AI 인프라 사용이 증가함에 따라 이 측정항목은 병목 현상을 식별하고, 리소스 할당을 최적화하며, 비용을 관리하는 데 매우 중요한 지표가 되고 있습니다.

용도: AI 플랫폼과 선택하는 생성형 AI 모델 유형에 따라 측정항목도 다르게 선택해야 합니다. 예를 들어 Gemini 같은 독점 모델을 사용하면 필요한 서빙 노드, 목표 지연 시간, 가속기 사용률 같은 측정항목을 Google 관리형 서비스가 처리해 주므로, 사용자는 간편한 API를 통해 애플리케이션을 빌드하는 데 더욱 집중할 수 있습니다. 개방형 모델을 사용해 직접 호스팅하는 경우 시스템 병목 현상을 식별하고 AI 시스템의 성능을 최적화하기 위해 보다 광범위한 시스템 품질 측정항목을 통합해야 할 수도 있습니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/KPIs-for-AI-charts-01.max-1700x1700.png

비즈니스 운영 KPI

운영 측정항목은 AI 시스템이 비즈니스 프로세스와 결과에 미치는 영향을 측정합니다. 이러한 측정항목은 솔루션과 산업에 따라 다릅니다. 특히 AI 시스템을 변경할 경우 측정항목이 항상 한 방향으로만 작용하는 것은 아니며, 하나의 KPI를 개선하면 이것이 다른 KPI에 영향을 줄 수도 있습니다. 예를 들어 소매업체에서 몰입도가 더 높은 챗봇을 도입하면 장바구니에 담긴 상품 수는 늘 수 있지만, 그동안 낮게 유지하는 것이 중요했던 장바구니 도달 시간은 길어질 수 있습니다. 따라서 변경사항에 따른 KPI를 해석할 때는 맥락과 산업에 대한 전문적인 이해가 중요합니다.

다양한 산업의 가장 일반적인 생성형 AI 사용 사례에서 생성형 AI의 영향을 추적하는 데 사용되는 비즈니스 운영 측정항목의 예시를 몇 가지 소개합니다.

고객 서비스 현대화

거의 모든 산업에서 기업들은 맞춤형 경험을 향상하고, 직원 생산성을 높일 수 있는 생성형 AI를 도입하여 고객 서비스를 현대화하고 있습니다. 이러한 사용 사례는 특히 통신, 여행, 금융 서비스, 의료 산업에서 활발하게 도입되고 있습니다. 다음은 일반적으로 사용되는 몇 가지 측정항목의 예시입니다.

  • 통화 및 채팅 처리율: AI 솔루션이 처리하고 해결한 수신 전화나 채팅 상호작용의 비율을 측정합니다. 이 측정항목은 AI 자동화를 통해 인바운드 문의를 줄이고, 향후 수요를 관리하며, 효율적으로 확장할 수 있는 조직의 역량을 나타냅니다.
  • 평균 처리 시간: 인간 상담사와 AI 에이전트가 고객 문의를 해결하는 데 사용하는 평균 시간을 측정합니다. 이 측정항목은 AI가 상담사의 업무를 보조하여 생산성과 효율성을 개선하는 데 어느 정도 기여하는지를 보여줍니다.
  • 고객 이탈률 및 고객 만족도 점수(CSAT): 고객이 거래를 중단하는 비율과 제품 및 서비스에 대한 고객 만족도를 측정합니다. 일반적으로 만족도가 증가하면 이탈률이 감소하는 강한 반비례 관계를 보입니다.
  • 인간 상담사 이탈률 및 만족도: 상담사의 퇴사율과 직무 만족도를 측정합니다. 상담사의 만족도를 높이는 요인이 무엇인지 파악하면 상담사 이탈률을 줄여 직원 유지율을 높이고 신입 상담사 채용 및 온보딩에 드는 비용을 낮출 수 있습니다.

제품, 서비스, 콘텐츠의 발견

생성형 AI는 맞춤형 추천과 더 직관적인 AI 기반 검색 경험을 통해 고객이 새로운 제품, 서비스, 콘텐츠를 발견할 가능성을 크게 높여 줍니다. 이러한 사용 사례는 특히 소매업, 패스트푸드 음식점(QSR), 여행 산업 분야에서 활발하게 도입되고 있습니다. 다음은 일반적으로 사용되는 몇 가지 측정항목의 예시입니다.

  • 클릭률(CTR): 사용자가 제품, 서비스, 콘텐츠를 본 후 클릭한 횟수를 측정합니다. 이 측정항목은 검색 결과 또는 추천된 콘텐츠의 관련성을 보여줍니다.
  • 사이트에 머문 시간(TOS): 고객이 웹사이트나 애플리케이션에 머문 시간의 길이를 측정합니다. 이 측정항목은 다양한 방식으로 사용자 참여도와 만족도를 나타내는 지표가 됩니다. 예를 들어 미디어 고객의 경우 페이지 조회 시간이나 시청 시간의 TOS가 길어지면 참여율이 증가했다는 것을 의미합니다. 제품 페이지나 검색 페이지에서 사이트에 머문 시간이 짧다면 제품 발견 효율성이 향상되었거나 구매까지의 소요 시간이 단축되었다는 의미일 수 있습니다.
  • 방문당 수익(RPV): 특정 기간의 순 방문자당 총수익을 측정합니다. 이 측정항목은 전환 고객당 수익 창출 효과를 사이트 또는 앱 방문 단위로 나타냅니다. 클릭률(CTR), 장바구니에 추가, 전환율, 평균 장바구니 크기 같은 다른 측정항목도 RPV에 영향을 줄 수 있습니다.
  • 방문량: 사이트에 방문하거나 애플리케이션과 상호작용한 순 사용자의 총수를 측정합니다. 이 측정항목은 고객 경험, 만족도, 순 추천 고객 지수(NPS)를 포괄하는 광범위한 지표라고 할 수 있습니다. 트래픽 양은 전반적인 비즈니스 성장률, 타겟층 조사, 마케팅 캠페인 성공 여부를 평가하는 데 도움이 될 수 있습니다.

지능형 문서 이해 및 처리

많은 산업에서 생성형 AI를 활용해 PDF, 인보이스, 계약서, 보고서, 양식 등의 비정형 문서에서 데이터를 추출하는 역량을 갖추는 데 박차를 가하고 있습니다. 이러한 사용 사례는 특히 금융 서비스, 의료, 제조 산업 분야에서 활발하게 도입되고 있습니다. 다음은 일반적으로 사용되는 몇 가지 측정항목의 예시입니다.

  • 처리 시간: 일반적으로 품질 보증이나 검증과 같은 단계를 포함해 문서에서 데이터를 처리하고 추출하는 데 걸리는 시간을 측정합니다.
  • 처리 용량: 이상적인 조건에서, 그리고 다운타임이나 장비 오류 같은 요인이 발생한 상황에서 각각 프로세스가 처리할 수 있는 최대 출력량을 측정합니다. 이 측정항목은 프로세스가 비용 증가 없이 대량의 문서를 얼마나 효과적으로 처리하는지를 나타냅니다. 프로세스의 병목 현상이 처리 용량의 한도를 결정하는 경우가 많습니다.
  • 지식 확장 가능성: 처리된 정보를 다른 애플리케이션에 맞게 얼마나 잘 조정하거나 확장할 수 있는지를 측정합니다. 이 측정항목은 지식 검색, 분석, 데이터 라이선스 등 더 많은 업무에 AI 애플리케이션을 활용할 수 있는지 여부를 판단하는 데 도움이 됩니다.

용도: 비즈니스 운영 측정항목은 기술 모델의 품질과 다운스트림의 재무적 영향을 연결해 살펴보고, AI 이니셔티브가 비즈니스에 실질적인 가치를 창출하고 있는지 여부를 파악하는 데 도움이 됩니다. 운영 측정항목을 모니터링하려면 여러 팀 간의 긴밀한 협업이 필요합니다. 가령 비즈니스 이해관계자는 결과 해석을, 데이터 과학팀은 모델 출력 최적화를, 개발자는 정상적인 AI 기능 작동을 지원해야 합니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/AI-Today.max-1300x1300.jpg

도입 KPI

생성형 AI의 광범위한 활용 가능성으로 인해 조직 전반의 생성형 AI 도입 및 사용 현황을 추적하는 새로운 도입 측정항목 집합이 필요해졌습니다. 예측형 AI 기술은 애플리케이션에 바로 통합되는 경우가 많지만, 생성형 AI의 성공 여부는 인간의 행동과 수용률 변화에 좌우됩니다. 예를 들어 고객 AI 에이전트는 고객이 실제로 이 서비스를 활용할 때만 효과를 발휘합니다. AI 기반 직원 생산성 도구 역시 직원들이 일상 업무에 이 도구를 적극적으로 활용할 때만 생산성 향상으로 이어질 수 있습니다.

가장 흔히 사용되는 몇 가지 측정항목을 소개합니다.

  • 도입률: 새로운 AI 애플리케이션이나 도구를 사용하는 활성 사용자의 비율을 나타냅니다. 이 측정항목의 추이를 보고 도입률이 낮은 원인을 파악할 수 있습니다. 낮은 도입률이 지속된다면 인지도 부족 때문일 가능성이 높으며, 높은 도입률에서 낮은 도입률로 하락했다면 성능 문제가 원인일 수 있습니다.
  • 사용 빈도: 사용자가 모델에 얼마나 많은 쿼리를 얼마나 자주 보내는지 매일, 매주, 매월 단위로 측정합니다. 이 측정항목은 애플리케이션의 유용성과 사용 유형에 대한 인사이트를 제공합니다.
  • 세션 길이/세션당 쿼리 수: 사용자가 AI 모델과 상호작용하는 평균 지속 시간을 측정합니다. 이 측정항목을 통해 AI 모델이 지닌 엔터테인먼트 측면의 가치나 답변 검색의 효과를 엿볼 수 있습니다.
  • 쿼리 길이: 쿼리당 평균 단어/문자 수입니다. 이 측정항목은 사용자가 답변 생성을 위해 제출하는 컨텍스트의 양을 나타냅니다.
  • 좋아요/싫어요 의견: 상호작용에 대한 고객의 만족도와 불만족도를 측정합니다. 이 측정항목은 실제 사람의 의견으로 보고 향후 모델 응답과 출력 품질을 세부적으로 조정하는 데 활용할 수 있습니다.

용도: 도입 측정항목은 생성형 AI 애플리케이션이 어떻게 사용되고 있으며 사용자 행동에 어떤 영향을 미치는지에 대한 인사이트를 제공해 사용자가 실제로 이 애플리케이션을 유용하다고 느끼는지, 개선이 필요한 영역은 무엇인지를 파악할 수 있도록 해줍니다. 이러한 측정항목 외에도 설문조사나 표적 집단 같은 다른 접근방식을 보충하면 생성형 AI가 일상 업무에 미치는 영향을 더 세밀하게 정성적으로 이해하는 데 도움이 됩니다. 이러한 측정항목은 모두 모델의 접근성, 안정성, 사용성을 종합적으로 파악하는 데 도움이 됩니다.

비즈니스 가치 KPI

생성형 AI 투자의 가치를 입증하는 일은 경영진과 비즈니스 리더들에게 주어진 큰 과제 중 하나입니다. 점점 더 많은 조직에서 생성형 AI의 영향을 정량화하고 생성형 AI가 투자수익(ROI)을 달성하고 있음을 입증할 방법이 필요하다고 느끼고 있습니다. 비즈니스 가치 측정항목은 비즈니스 운영 및 도입 측정항목을 보완하여 이를 AI 이니셔티브가 조직에 미치는 전반적인 영향을 정량화하는 재무적 측정항목으로 변환하는 데 도움을 줍니다.

가장 일반적인 예시를 소개하면 다음과 같습니다.

  • 생산성 가치 측정항목: 평균 통화 처리 시간, 문서 처리 시간, 도구를 사용하여 절감한 시간 등 구체적인 개선사항을 측정하여 AI로 실현한 생산성을 파악합니다.
  • 비용 절감 측정항목: AI 솔루션 대비 기존 라이선스 비용, 통화/채팅 처리율, 채용/온보딩 비용 절감률을 측정하여 AI 애플리케이션을 통해 실현한 IT 및 서비스 효율성을 보여줍니다.
  • 혁신 및 성장 측정항목: 문서 처리 역량, 지식 확장 가능성, 작업/커뮤니케이션/애셋 품질 향상 정도를 측정하여 새로운 제품, 서비스, 비즈니스 모델에 AI가 기여한 정도를 평가합니다.
  • 고객 경험 측정항목: 이탈 감소율, 매출 증가, 방문 수, 사이트에 머문 시간 등을 측정하여 고객 만족도와 충성도에 미치는 AI의 영향을 파악합니다.
  • 복원력 및 보안 측정항목: 애플리케이션 다운타임 또는 확장성, 보안 위험 감소, 탐지 및 대응 역량 향상 정도를 측정하여 생성형 AI의 장애 복구 기능과 민감한 정보 보호 성능을 평가합니다.

용도: 비즈니스 운영 및 도입 KPI를 이해할 수 있는 확실한 계획을 세운 후에는 재무팀의 도움을 받아 이를 구체적인 재무적 영향 측정항목으로 변환할 수 있습니다. 또한 생성형 AI를 빌드하고 유지하는 데 드는 비용을 고려하여 ROI를 완벽하게 이해하는 것이 중요합니다. 여기에는 데이터 크기와 복잡성, 사용량, 모델 수, 모델 크기 및 복잡성, 애플리케이션 개발 및 유지에 필요한 관련 리소스 같은 비용 요인을 평가하는 과정이 포함됩니다. 생성형 AI 비용은 모델에 따라 크게 달라질 수 있으므로 사용 사례의 성능, 지연 시간, 재무적 요구사항에 가장 잘 맞는 모델을 활용하는 것이 중요합니다.

생성형 AI를 위한 KPI 활용

이제 이러한 측정항목을 어떻게 실전에 응용할 수 있는지 살펴보기 위해 실제 생성형 AI 사용 사례를 들어 그 유용성과 가치를 평가하는 데 측정항목을 사용하는 방법을 알아보겠습니다.

이 사례에서는 소비자 대상 음식 배달 회사에서 AI 기반 챗봇을 새롭게 도입하여 음식 주문, 청구 및 결제, 구독 및 서비스와 관련된 일반적인 질문을 비롯한 고객 지원 요청을 처리한다고 가정해 보겠습니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/KPIs-for-AI-charts-02.max-1700x1700.png

전반적으로 적합한 KPI를 계산하고 해석하는 방법을 이해하면 생성형 AI 프로젝트의 성능과 효과에 대한 귀중한 인사이트를 얻을 수 있습니다. 모델 품질, 시스템 성능, 운영 효율성, 도입률, 비즈니스 가치를 아우르는 적절한 측정항목을 추적하면 더 스마트한 의사 결정을 내리고 조직 내에서 생성형 AI의 잠재력을 최대한으로 실현할 수 있습니다.

작성자 외에도 Mikhail Chrestkha가 이 게시물 작성에 큰 도움을 주었습니다.

게시 위치