생성형 AI로 생산성을 증대하는 방법 (그리고 작업자의 웰빙이 중요한 이유)

Derek DeBellis
Researcher
생성형 AI를 빌드할 때는 언제나 인간 중심으로 먼저 접근하되 데이터나 시스템도 간과해서는 안 됩니다.
*본 아티클의 원문은 2023년 8월 19일 Google Cloud 블로그(영문)에 게재되었습니다.
생활의 지혜, 조언이 가득한 칼럼, 지름길. 드라마 <The Bear>에서 수석 셰프가 주방 선반 사이의 동선을 5초 미만 거리로 줄이는 장면을 기억하시나요? 일상 생활에서든 비즈니스에서든 사람들은 보다 생산적이고 만족스러우며 효과적인 방법을 찾기 마련입니다.
엄청난 관심을 얻은 지 몇 달도 지나지 않아 생성형 AI는 생산성을 높이는 유용한 기술로 각광받으며 수십 배나 수백 배, 혹은 그 이상으로 작업 시간을 단축하거나 성과를 향상시켰습니다. 예를 들어 한 컨설팅 회사의 조사에 따르면 생성형 AI를 사용하기 전에 78시간 걸리던 프로그래밍 작업을 2022년 이전의 AI 기술을 사용하면 56시간, 최신 기술을 사용하면 36시간 만에 완료할 수 있다고 합니다. 불과 몇 년 만에 효율성이 114% 증대된 것입니다.
그러나 여느 조언이나 지름길이 그렇듯, 적절한 AI 기술을 선택하여 스마트하고 안전하게 사용하고 있는지 혹은 효과를 극대화하고 있는지 확신하기 어려울 수 있습니다. AI 기술의 도입이 IT뿐만 아니라 법률, 마케팅, 영업, 운영, M&A, 공급망 분야에 이르기까지 기업 전반적으로 팀의 생산성을 향상시킬 혁신적인 기회라는 점에는 의심의 여지가 없습니다. 현재 전자 통신과 디지털 도구에서 그러하듯 수년 안에 조직 내의 모든 영역이 어떤 식으로든 AI 기술로 인한 이점을 누리게 될 것으로 보입니다.
그러나 조직이 AI 기술의 잠재력을 최대한 실현하기 위해서는 AI를 적용하여 목표를 달성하는 방법을 충분히 이해할 필요가 있습니다.

AI 기술이 제안하는 진정으로 매력적인 가치는 직원이 주어진 시간 내에, 또는 하루 동안 해낼 수 있는 작업량을 늘리는 것에 그치지 않습니다. 직원이 반복 업무나 과로에 시달리지 않고도 비즈니스와 최종 고객들에게 더 큰 가치를 제공할 수 있다는 점을 잊어서는 안 됩니다.
AI를 채택하기 위한 자체 원칙을 개발하든 기존 프레임워크를 활용하든 상관없이 AI 기술이 보편화될수록 AI 기술 사용을 위한 프레임워크를 구축해야 합니다. 그러한 프레임워크를 구축해야 AI 기술을 최대한으로 활용하고 기업 생산성 향상에 기여하도록 만들 수 있습니다.
생산성을 증대하는 생성형 AI
지금은 폭넓은 AI 기술의 여명기에 불과하지만, 생성형 AI는 초기부터 기대되는 생산성 수익을 보여주고 있습니다.
조사 기관인 Nielsen Norman Group에서 세 가지 우수사례를 분석한 결과 조사 전반에서 생성형 AI가 비즈니스 사용자의 생산성을 평균 66% 향상시킨 것으로 나타났습니다. Nielsen Norman Group은 프로그래밍과 같이 복잡한 작업일수록 생산성이 더 많이 향상된다고 밝혔습니다. 또한 숙련도가 낮은 직원이 생성형 AI의 이점을 가장 크게 누리는 것으로 나타났습니다.
첫 번째 우수사례는 에릭 브리뇰프슨(<The Second Machine Age and Machine, Platform, Crowd>의 저자)이 스탠포드 대학교 및 MIT의 동료들과 함께 수행한 연구입니다. 이 연구에서는 대기업 소프트웨어 회사의 고객 지원 담당자 5,000명을 대상으로 조사한 결과, 생성형 AI를 활용하는 담당자가 시간당 13.8% 더 많은 고객 문의를 처리할 수 있는 것으로 나타났으며 특히 경험이 적은 담당자(하위 20%)가 35% 더 많은 문의량을 처리해 가장 큰 이점을 누리는 것으로 확인되었습니다. 또한 특정 달에 퇴사율이 8.7% 감소하는 등 직원 유지율이 향상되었는데, 이 역시 AI가 직원 웰빙에 얼마나 중요한 기여를 하는지 알려주는 측정항목입니다.
AI 기술이 제안하는 진정으로 매력적인 가치는 직원이 주어진 시간이나 하루 동안 해낼 수 있는 작업이 증가하는 데 국한되지 않습니다. 직원이 반복 업무나 과로에 시달리지 않고도 비즈니스와 최종 사용자에게 더 큰 가치를 선사할 수 있습니다.
MIT의 샤케드 노이와 휘트니 장이 수행한 두 번째 우수사례 연구에서 연구자들은 마케팅 담당자, 인사 관리 담당자, 공증인 등 AI를 활용한 문서 작성 경험이 풍부한 여러 분야의 비즈니스 전문가 444명을 조사했습니다. AI 지원을 받을 때 문서 작성에 평균 17분가량 소요된 반면 지원을 받지 않을 때는 문서 작성에 27분이 걸렸습니다. 하루 평균 근무시간이 8시간이라고 가정할 때 생성형 AI를 사용하면 잠재적으로 59% 많은 문서를 작성할 수 있는 셈입니다. 문서의 품질 또한 향상되었는데 AI 지원을 받은 경우 평균 점수 4.5점, 지원을 받지 않은 경우는 3.8점으로 나타났습니다.
마지막 우수사례 연구에서 연구자들은 프로그래머 70명에게 JavaScript로 HTTP 서버를 구현하도록 요청했습니다. 절반은 생성형 AI 도구를 사용하고 나머지 절반은 AI 지원 없이 작업을 완료했습니다. 그 결과 AI를 사용하지 않으면 2.7시간이 소요되는 작업을 AI 도구를 사용할 경우 1.2시간 만에 완료할 수 있었습니다.
“마침내 의미 있는 생산성 향상을 이루게 되었습니다."라고 Nielsen Norman Group의 대표 겸 공동 창립자인 제이콥 닐슨은 밝혔습니다. "AI로 인해 증가한 생산성은 66%로, 미국에서 47년 동안 자연적으로 증가한 생산성과 맞먹는 수준입니다. 이는 유럽 연합에서 88년에 걸쳐 일어난 생산성 증가율에 해당하는데, 1957년에 유럽 공동체(EU의 전신)가 결성된 이후의 기간인 66년보다 3분의 1 더 긴 시간입니다.”
눈길을 사로잡는 이 모든 가능성을 고려할 때 기업과 조직은 생성형 AI를 통해 어떻게 생산성을 향상할 수 있을까요? 측정 기능이 강력하고 인간 중심의 접근 방식을 사용하는 가이드라인 프레임워크를 갖추면 도움이 됩니다.
AI로 생산성을 높이기 위한 프레임워크
AI를 사용할 때는 장단기적인 여러 영향과 함께 잠재적인 위험을 고려해야 합니다. 공동체, 환경, 경제, 업무 방식, 직장에서의 직무에 지속적인 영향을 미치는 것이 불가피하기 때문입니다. 다른 사람, 그리고 주변 세계와 관계를 맺는 방식이 변화할 수밖에 없을 것으로 보입니다.
이 모든 사항을 고려할 때 AI 기반 생태계를 유지하는 데 필요한 리소스는 현재 우리가 보유하고 있는 리소스와는 매우 다를 가능성이 높습니다. 문제는 AI가 극적인 영향을 미칠지 여부가 아니라 어떤 방식으로 영향을 미칠지입니다.


'생산성 역설 개념을 표현한 만화 형식의 삽화를 컴퓨터로 작업 중인 여성' 4가지 버전 중 2가지(Midjourney 제작)
Google Cloud와 Google Cloud DORA팀 등의 조직은 이미 자체적인 AI 권장사항 개발을 지원하기 위해 구체적인 단계를 진행하고 있습니다. 특히 중점을 두고 있는 영역 중 하나인 책임감 있는 AI는 보다 폭넓은 생산성 향상과 AI 도입을 촉진하는 데 중요한 역할을 할 수 있습니다. 팀이 기술을 신뢰할 때 그 기술로 작업하는 것이 더 쉬워지기 때문입니다.
조직은 이러한 점을 염두에 두고 다음과 같은 책임감 있는 AI 가이드라인 구현을 고려해야 합니다.
인간 중심의 AI 시스템 설계
보다 효율적인 시스템을 설계하려면 인간 중심적으로 접근하는 것이 중요합니다. 특히 솔루션의 영향을 평가할 때는 주요 대상에게 솔루션이 얼마나 잘 작동하는지를 고려해야 합니다.
AI 시스템은 개인이 피드백 루프의 일부가 되어 시스템이 경로를 변경하고 인간의 입력에 기반해 시간 경과에 따라 개선되도록 설계되어야 합니다. 명확성, 제어, 개인 정보 보호를 AI 시스템에 통합하고 확정적인 단일 답변보다는 사용자에게 다양한 옵션과 함께 보강과 지원을 제공하는 데 중점을 두어야 합니다.
다양한 측정항목 고려
AI의 영향은 하나의 측정항목에만 의지하여 평가할 수 없습니다. 그보다는 개발자 생산성의 SPACE 모델에 따라 측정하려는 모든 대상에 대해 다양한 측정기준의 측정항목을 3개 이상 확보하는 것이 좋습니다. 커뮤니케이션, 공동작업, 효율성, 성과, 만족도를 중심으로 측정항목을 선정할 수 있지만 각 조직의 상황과 목표에 따라 선택이 달라집니다. 또 다른 예로는 SPACE 모델과 유사한 연구에 기반한 DORA의 4가지 주요 측정항목이 있습니다.
다양한 측정항목으로 측정하는 것은 한 가지 지표에 지나치게 의존함으로써 다른 지표를 경시하거나 특정한 성과 기반 인센티브를 달성하기 위해 측정값을 조작하는 일을 방지하는 데 중요한 역할을 합니다.
또한 가드레일 측정항목을 갖추는 것도 중요합니다. 예를 들어 Google에서 생산성이 중요한 측정항목이긴 하지만 데이터 개인 정보 보호, 웰빙, 보안과 같은 다른 고려사항을 대체할 수 있는 것은 아닙니다. Google은 예상치 못한 잠재적인 부정적 영향을 조명하고 의도치 않은 결과를 방지하기 위해 AI에 대한 가드레일 측정항목을 도입하고 있습니다.
원시 데이터 이해하기
데이터는 AI와 머신러닝 모델의 근간이므로 조직에서는 AI 빌드에 데이터를 사용하기에 앞서 원시 데이터를 최대한 이해해야 합니다.
원시 데이터에 내재된 편향은 AI 시스템의 편향을 야기할 수 있습니다. 원시 데이터에는 사용자 또는 사용자가 데이터를 사용할 실제 환경이 완벽하게 반영되지 않을 수 있습니다. 또한 모델이 일부 데이터 클래스의 구별에 어려움을 겪을 수 있습니다. 성과 목표를 달성하려면 사용자를 잘 나타내는 학습 데이터가 있어야 하고, 적절한 데이터 라벨을 사용해야 하며, 최대한 간소한 모델을 빌드해야 합니다. 이러한 단계를 거치면 편향되지 않고 공정한 AI 시스템을 개발할 수 있습니다.


'생산성 역설 개념을 표현한 만화 형식의 삽화를 컴퓨터로 작업 중인 여성' 4가지 버전 중 2가지(Midjourney 제작)
데이터 세트 또는 모델의 한계 파악하기
이와 동시에 AI 시스템의 한계를 이해하는 것이 중요합니다. 어떤 모델은 특정 클래스의 식별에 어려움이 있고, 다른 모델은 결과를 제공하는 데만 유용할 수도 있습니다. 예를 들어 상관관계를 인식하도록 학습시킨 모델을 인과관계를 설정하는 데 사용해서는 안 됩니다. 또 다른 경우에는 모델이 데이터 세트에 표시되지 않는 잠재 변수를 표시할 수도 있습니다.
이러한 점에서 학습 데이터의 범위를 투명하고 상세하게 정하는 것이 중요합니다. 사용자는 AI 시스템이 무엇을 할 수 있는지, 그리고 (더 중요하게는) 무엇을 할 수 없는지 파악해야 합니다. 이러한 한계에 대해 공개적으로 소통하면 사용자의 기대치를 적절하게 설정하고, 사용자가 AI 출력이 본인의 니즈를 충족하는지 여부를 평가하는 데 필요한 문맥을 제공할 수 있습니다.
지속적으로 테스트하기
AI 시스템에 대한 신뢰를 높이려면 조직에서 지속적으로 테스트해야 합니다. 비즈니스에서 엄격한 단위 및 통합 테스트를 수행하면 개별 시스템 구성요소가 얼마나 잘 작동하며 시스템의 다른 영역과 상호작용하는지 평가할 수 있습니다.
테스트를 수행하면 시스템을 훼손하는 데이터 드리프트를 없애고, 시스템이 사용 사례 변화와 다양한 사용자에 맞춰 최적으로 작동하도록 만들며, 의도치 않은 장애를 방지하고, 성능 개선을 이룰 수 있습니다. 연구에 따르면 지속적으로 개선 필요성을 인식하는 팀은 그렇지 않은 팀보다 조직 성과가 더 높은 경향이 있습니다.
시스템 상시 모니터링하기
AI 시스템을 배포했다고 해서 모든 작업이 끝나는 것은 아닙니다. 모니터링을 수행하면 모델이 사용자 피드백과 실제 성능을 고려하여 지속적인 개선을 지원합니다. 또한 문제가 발생할 경우 장단기적인 개선사항을 식별하는 데 도움이 되므로 배포된 모델을 업데이트하면서도 비즈니스 중단과 사용자 영향을 최소화하는 가장 좋은 방법 중 하나입니다.
생성형 AI는 비즈니스와 생산성에 큰 영향을 줄 수 있습니다. 여느 새로운 도구와 마찬가지로 테스트와 모니터링에 중점을 두고 생성형 AI에 접근하면 비즈니스에서 생성형 AI의 활용을 조정하는 데 도움이 됩니다. 궁극적으로는 경쟁에서 앞서나갈 수 있도록 지원하는 최첨단 기술을 토대로 생산성을 향상하고 인적 역량을 강화해야 합니다.
모든 이미지는 Google Cloud 기반 Midjourney에서 '생산성 역설 개념을 표현한 만화 형식의 삽화를 컴퓨터로 작업 중인 여성'이라는 프롬프트를 사용하여 제작했습니다.



