클라우드 기반 데이터 파이프라인 구축으로 데이터 활용 가치 높여
MyMusicTaste에 대하여
“Stop wishing, Start making” 마이뮤직테이스트는 좋아하는 아티스트의 공연을 팬들의 도시에서 직접 만들 수 있는 기회를 제공한다는 아이디어에서 출발하였습니다. 마이뮤직테이스트는 팬들의 요청을 기반으로, 52개 이상의 도시에서 GOT7, MONSTA X, The xx, Kehlani 등 다양한 아티스트의 공연을 성공적으로 이뤄냈습니다.
어떤 어려움을 겪고 계신지 알려주세요. Google Cloud가 도와드리겠습니다.
문의하기마이뮤직테이스트는 팬과 아티스트를 공연이라는 콘텐츠로 직접 만날 수 있도록 연결해주는 것을 목표로 하고 있습니다. 예측하기 어려운 공연의 수요를 머신러닝을 기반으로 한 예측 모델로 예측하고, 이를 위한 데이터를 빠르고 정확하게 수집, 관리하기 위해 마이뮤직테이스트는 Google Cloud Platform 위에 데이터 파이프라인을 구축했습니다. 이 과정에서 데이터의 신뢰가 높아지면서 경험과 감에 의지한 판단 대신 데이터에 기반한 정교화된 판단 근거가 생겼고 서비스 확장과 고도화의 기회도 열렸습니다.
구글 클라우드 사용 효과
- 분석 위한 데이터 정확도 높아져
- 데이터 구조화로 데이터 활용 가능성 확장
- 현업의 데이터 접근성 향상
데이터 파이프라인으로 분석, 확장 기반 마련
음악의 소비는 인터넷을 만나면서 그 어느때보다 빠르게 변화하고 있습니다. 디지털 음원의 등장이 음반 중심의 소비를 바꾸어 놓았던 것처럼 팬과 아티스트가 만나는 공연의 방법 역시 변화를 겪고 있습니다.
마이뮤직테이스트는 팬들이 직접 공연을 요청하고 만들어가는 새로운 형태의 음악 소비 형태를 만들어내면서 비즈니스를 시작했습니다. 공연은 큰 사전 투자가 들어가고 아티스트라는 유니크한 콘텐츠를 기반으로 하기 때문에 자연스럽게 공급자 중심으로 돌아가는 게 당연하게 여겨졌습니다. 하지만 마이뮤직테이스트는 마이뮤직테이스트의 웹서비스에 모여 아티스트의 공연을 요청하는 팬들의 수요를 통해 수요자 중심의 크고 작은 공연이 이뤄지고, 수요를 쉽게 파악할 수 없는 세계 각지에서도 팬들과 아티스트의 교감이 일어날 수 있다는 가능성을 보여주었습니다.
중요한 것은 ‘확신’입니다. 공연이 확실히 이뤄질 수 있다는 믿음이 팬들에게도, 아티스트들에게도 생겨야 합니다. 마이뮤직테이스트는 데이터로 확신을 빚어냅니다. 마이뮤직테이스트는 안정적으로 공연을 만들어내기 위해 경험에 기대 ‘이 정도면 흥행할 수 있겠다’고 판단하지 않습니다. 아티스트와 팬들이 직접, 또 간접적으로 만들어낸 데이터를 수집하고 이를 적절히 분석해서 공연이 성공적으로 이뤄질 수 있는지, 어떤 규모의 공연을 만들어야 하는지 조심스럽게 짚어보는 것입니다. 즉 데이터는 마이뮤직테이스트의 가장 큰 뼈대이자 비즈니스 자산입니다. 마이뮤직테이스트의 데이터는 모두 구글 클라우드 플랫폼 위에 실시간으로 쌓이고 빠르게 분석됩니다.
클라우드 기반 데이터 자동화 구축 필요성 높아져
마이뮤직테이스트에 쌓이는 데이터는 내부와 외부 데이터로 나뉩니다. 내부 데이터는 말 그대로 마이뮤직테이스트 안에서 쌓이고 생성되는 데이터를 말합니다. 공연 요청 데이터부터 요청을 늘리기 위해 팬들끼리 서로를 초대하는 행동 데이터, 팬들이 서비스 내에서 아티스트에게 쓰는 메세지도 중요한 데이터입니다. 또한 이용자들이 서비스를 어떻게 이용하고 어떻게 반응하는지 알 수 있는 이용자 행동 데이터도 쌓입니다. 마이뮤직테이스트는 자체 DB 뿐만 아니라 Google Tag Manager를 통해 유저의 행동/수요 데이터를 수집합니다.
이후에는 내부 데이터에 외부 데이터가 주는 부가적인 정보를 더해 데이터의 신뢰도와 정확도를 높입니다. 팬들과 아티스트들이 많이 활동하는 플랫폼의 데이터나 국가별 GDP, 도시 인구 등 지역 데이터를 수집해서 가공하고, 내부 데이터들을 조율하는 데에 쓰곤 합니다. 김명수 그로스본부 본부장은 데이터의 정확도, 신뢰도가 중요하지만 이를 흔드는 요인들도 많다고 설명합니다.
“마이뮤직테이스트가 만드는 데이터의 상당 부분은 사람들이 만들어내는 것입니다. 사람들이 데이터를 만들어내는 패턴은 생각보다 다양합니다. 이용자들은 단 한명의 아티스트를 좋아하는 것이 아니기 때문에 여러 아티스트의 공연을 동시에 요청하기도 하고, 때로는 팬덤끼리 품앗이를 해서 다른 아티스트의 공연이 이뤄질 수 있도록 서로 몰아주기를 하는 경우도 있습니다. 실제 데이터를 왜곡하는 어뷰징이 일어날 수 있다는 이야기입니다. 그래서 데이터 엔지니어들이 모든 과정에서 데이터 하나하나의 신뢰도를 판단하며 분석을 해야 했습니다. 정확도를 높이기 위해서는 효율적인 데이터 보관 장소가 필요했습니다.”
마이뮤직테이스트는 먼저 이 데이터들을 모두 ‘BigQuery’에 수집해 왔습니다. BigQuery는 모든 데이터를 담을 수 있지만 결국 분석을 위한 데이터이기 때문에 정형화된 데이터를 담는 것이 유리합니다. 여러가지 데이터들이 체계적으로 쌓이고 적절히 활용되려면 결국 데이터들이 자동으로 처리되는 프로세스를 갖추는 것이 효과적입니다. 그래서 마이뮤직테이스트는 단순히 현재 분석 시스템을 쌓는 데이터 웨어하우스를 넘어 데이터와 관련된 모든 부분을 파이프라인을 구글 클라우드 컴퓨팅 위에 구축하기로 했습니다.
마이뮤직테이스트는 2020년 4월부터 파이프라인을 구축하기로 했습니다. 이전에도 기초적인 데이터 전처리 방식은 있었는데, 완전히 자동화된 시스템이 필요하다고 판단했습니다. 분석이 신뢰를 얻으려면 소스로 쓰는 데이터가 정확해야 하는데, 이를 위해서는 데이터 수집의 양을 늘리고, 여러가지 분석 기법과 머신러닝 기술을 더해 데이터가 말하는 진실에 귀를 기울여야 합니다.
마이뮤직테이스트의 데이터 파이프라인은 ‘Google Compute Engine’에 구성한 데이터 크롤러를 통해 데이터를 수집하는 데에서 시작합니다. 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 모든 과정이 자동화되어 있고, 내부에서 운영하며 나오는 데이터 뿐 아니라 외부 웹사이트에서 아티스트들과 팬들을 통해 만들어지는 여러가지 정보들이 BigQuery에 약속된 형태로 차곡차곡 쌓입니다. 고동규 데이터 엔지니어는 이미 데이터 파이프라인의 확장 가능성도 검토하고 있다고 말합니다.
“데이터는 전처리를 통해 분석이 쉬운 정형, 혹은 반정형 데이터로 가공됩니다. 데이터 파이프라인의 중요한 역할 중 하나는 내부와 외부의 데이터를 제때 가져와서 적절한 형태로 가공하는 것입니다. 데이터의 수집과 분석이 안정화되면 다음 단계로 DataProc이나 Cloud Dataflow를 통해 데이터를 더 체계적으로 관리하고 자동화의 완성도를 높이는 것을 검토중입니다.”
“음악을 중심으로 팬과 아티스트가 만날 수 있는 자리를 직접 만드는 것을 목표로 하고 있습니다. 공연이 성공적으로 이뤄지려면 각 지역에 수요가 얼마나 있는지 파악해야 합니다. 흥행 판단 기준을 머신러닝으로 결정하면서 구글 클라우드 플랫폼은 데이터의 수집부터 전처리, 실제 분석 과정 뿐 아니라 셀프 서비스 기반 시각화까지 일련의 프로세스를 만들어주었습니다.”
데이터 파이프라인 통해 데이터 정확성, 효율성 높아져
데이터 파이프라인의 중요한 역할 중 하나는 BigQuery에 넣기 적절한 형태로 데이터를 수집, 가공하는 것입니다. 마이뮤직테이스트는 Google Compute Engine에 데이터 크롤러를 얹어 서비스 내부와 외부의 데이터를 수집합니다. 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 모든 과정이 자동화되어 있고, 내부에서 운영하며 나오는 데이터 뿐 아니라 외부 웹사이트에서 아티스트들과 팬들을 통해 만들어지는 여러가지 정보들이 BigQuery에 약속된 형태로 차곡차곡 쌓입니다. 이후에는 데이터 프록이나 데이터 플로를 통해 데이터를 더 체계적으로 관리하고 자동화의 완성도를 높일 계획입니다.
핵심이 되는 머신러닝 분석은 하루에 한 번씩 이뤄집니다. ‘Cloud Scheduler’는 정해진 시간에 분석을 시작할 준비를 합니다. 먼저 자동화의 핵심이 되는 맡는 ‘Cloud Pub/Sub’이 워크플로우를 관리하고 ‘Cloud Functions’를 통해 어떤 분석 자료를 뽑아낼 지 결정해서 메시지를 전송합니다.
Cloud Functions는 BigQuery에 준비된 데이터를 바탕으로 Cloud Pub/Sub이 내린 명령에 따라 Google Compute Engine에서 머신러닝 모델을 실행합니다. 마이뮤직테이스트는 이전에도 머신러닝 모델을 직접 설계해서 실행하고 있었는데, 데이터 파이프라인이 설계되면서 더 많은 데이터들을 효과적으로 분석할 수 있게 됐고, 처리 효율도 빨라졌습니다. 마이뮤직테이스트의 머신러닝 모델은 실시간으로 운영될 필요가 없기 때문에 하루 한 차례 분석이 끝나면 결과값을 BigQuery에 보관하고 Cloud Functions는 데이터의 흐름을 정리한 뒤 자동으로 Google Compute Engine을 멈춰서 비용 효율성을 높입니다.
데이터 파이프라인이 완성되면서 데이터 처리의 효율성과 속도가 높아졌습니다. 또한 Google Compute Engine이 상시 돌지 않아도 이후의 데이터 세트는 모두 BigQuery에서 운영되기 때문에 공연을 만드는 실무자들이 필요한 데이터를 직접 뽑아볼 수 있을 뿐 결과값을 시각화하기 쉽기 때문에 데이터의 사용성이 비약적으로 높아졌습니다.
데이터 중심의 업무 환경 싹 터
마이뮤직테이스트의 가장 중요한 과제 중 하나인 티켓 판매량에 대한 도시별 예측은 데이터 파이프라인의 효율성을 볼 수 있는 좋은 예입니다. 기존에는 분석가들이 BigQuery에 담겨 있는 데이터를 이용해 티켓 판매량 예측 모델을 수동으로 돌려 판매량에 대한 정보가 필요한 현업 부서에 전달해 주었습니다.
“데이터 처리에 대한 파이프라인이 없었고 머신러닝 모델이 완성되지 않아서 데이터 분석가들이 직접 데이터를 매만져서 모델에 넣어야 했습니다. 그렇게 나온 결과값 역시 어느 정도 데이터를 읽을 수 있는 전문성과 인사이트가 필요했습니다. 데이터를 처리하는 과정이 자동화되지 않았고, 모델링 초기 단계라 결과값 대한 확신이 적었기 때문에 데이터 분석가가 한 번이라도 검수하는 과정이 필요했던 것이지요.”
김명수 본부장은 이처럼 반복되는 일들을 자동화하면 업무 처리 속도가 높아질 뿐 아니라 사업부가 데이터를 더 다각도로 읽어낼 수 있을 것이라고 기대했습니다. 데이터 파이프라인이 구축되면서 BigQuery에 잘 갖춰진 데이터가 담기고, Google Compute Engine에서 티켓 판매량 예측 모델을 자동으로 돌려 매일 새롭게 업데이트한 값을 자동으로 뽑아 협업 부서에서 필요할 때 볼 수 있는 환경을 만들었습니다. 예측이 필요할 때마다 데이터 분석가가 일일이 대응하지 않아도 되는 상황이 되었고, 이렇게 남은 시간을 모델 개선에 더 투자하여 이제는 데이터 분석가들이 직접 만지지 않아도 충분히 신뢰할 수 있을 정도의 결과물이 나오기 시작했습니다. 파이프라인을 구축한지 불과 3개월만의 일입니다.
“데이터 분석가들은 지속적으로 모델을 손 보고 정확도를 높여가는 개선 작업이 가장 중요한데, 데이터 파이프라인이 구축된 이후로는 세부 변수를 매만지고 반영된 결과를 보고 판단하는 과정이 아주 짧은 시간내에 이뤄지고 있습니다. 더 많은 실험을 할 수 있고 원하는 결과에 더 빠르고 정확하게 접근할 수 있게 됐습니다."
김명수 본부장은 데이터를 통해 할 수 있는 일들이 늘어나면서 현재는 티켓 판매량 예측 뿐 아니라 어뷰징이나 허수 데이터를 골라내고 공연의 예상 이익을 뽑아내는 등 오랫동안 생각해 온 일들이 실제로 일어나고 있다고 설명합니다. 부담 없이 데이터를 실험하고 서서히 영역을 확장해 나가는 과정으로 이어지는 것입니다.
또한 사내 업무 프로세스가 크게 달라졌습니다. 유관 부서에서도 데이터를 더 적극적으로 활용할 수 있게 됐기 때문입니다. 기존에는 공연에 대한 최종 의사결정을 해야 하는 사업부에서 데이터가 필요할 때마다 데이터 분석가에게 분석을 요청하고 결과를 기다려야 했습니다. 예를 들면 “A 아티스트의 티켓 판매량이 얼마나 될까요?”같은 질문을 던지면 데이터 분석가들이 쿼리를 돌리고, 데이터를 하나하나 손봐서 결과를 알려주는 식이었습니다.
이렇게 필요한 데이터를 매번 데이터 분석가들에게 요청하는 환경에서는 즉각성이 떨어질 뿐 아니라 원하는 데이터를 자유롭게 뽑아보기 부담스러운 부분도 있었습니다. 하지만 지금은 사업부에서 자동화 과정을 통해 매일 업데이트 되는 대시보드에 에 접근해 판매량 예측치를 직접 확인할 수 있습니다.. 이 대시보드 만으로 도시별 음원, 티켓 판매량이 어떻게 변화해 왔는지 히스토리를 파악할 수도 있고, 분석 결과에 대해서도 어떤 요인이 결과값을 만들어내는 데에 영향을 끼쳤는지도 알려줍니다. 이는 설득력을 높이는 요인이 됩니다.
“데이터는 신뢰 만들어가는 과정”
하지만 데이터 중심의 운영 방식이 자리를 잡으면서 새로운 고민거리가 생겼습니다. 데이터와 머신러닝이 만들어낸 결과를 관계자들이 신뢰하도록 하는 것이었습니다. 이전에는 정교한 머신러닝 모델링 모다는 마이뮤직테이스가 확보해둔 데이터베이스를 바탕으로 상대적으로 간단한 로직을 이용해 공연의 결과를 판단했습니다. 하지만 김명수 본부장은 마이뮤직테이스트 사업을 확장해나가면서 수집한 데이터의 양이 많아짐에 따라 보다 정교한 모델을 개발할 수 있을 것이라고 판단했습니다.
“규칙 기반의 데이터 분석은 사람이 만들어가는 것이기 때문에 결과가 나오는 과정이 그럴듯합니다. 왜 이런 식으로 판단을 내렸는지에 대해서 설명할 수 있다는 이야기지요. 하지만 머신러닝이 뽑아내는 결과는 설명이 쉽지 않습니다. 아티스트를 설득하려면 ‘왜 이런 결과가 나왔는지’에 대해서 설명할 수 있어야 하는데 머신러닝 모델의 파라미터를 설명하는 것은 쉽지 않은 일이었습니다. 하지만 모델이 어느 정도 완성이 되고, 실제 현장에서 적중률이 높아지면서 데이터가 왜 이런 결과를 냈는지 설명하기가 쉬워지고 있습니다.”
데이터 분석은 결과의 적중률이 높으면 그 자체로 인정받을 수 있기는 하지만 실제로는 내부에서 뿐 아니라 아티스트에게도 데이터 분석 결과가 어떤 이유로 나왔는지, 그 과정을 설명할 수 있으면 설득도 쉬울 뿐 아니라 신뢰도가 높아집니다. 아무리 머신러닝의 결과라고 하더라도 ‘그 이유는 컴퓨터만 알 수 있다’고 말할 수는 없지요. 현재는 어떤 요인 때문에 결과가 만들어졌는지에 대한 설명이 쉬워졌습니다. “결국 설명력을 높이는 과정이 신뢰와 연결된다”는 것이 김명수 본부장의 설명입니다.
결국 데이터에 귀를 기울이면서 팬과 콘텐츠를 직접 만나게 한다는 비즈니스의 본질에 가까워지고 있습니다. 마이뮤직테이스트는 데이터 중심의 비즈니스 환경을 빠르게 구성하는 것을 목표로 하고 있고, 구글 클라우드 플랫폼 위의 데이터 파이프라인은 완전한 관리형 서비스를 바탕으로 구성했기 때문에 안정성과 지속적인 기능 개선을 가능하게 만들고 있습니다.
“데이터 엔지니어로서는 리소스를 관리하는 부담이 컸는데 구글 클라우드 플랫폼으로 데이터를 옮긴 뒤로 관리 업무는 거의 사라졌습니다. 대신 머신러닝 모델이나 데이터 시각화, 대시보드 등 다른 부분을 고도화할 수 있는 여유가 생겼습니다. 또한 모든 것을 직접 복잡하게 만지는 형태의 클라우드가 아니라 구글 클라우드 플랫폼의 완성된 클라우드 요소들을 제대로 구성해서 서비스를 만드는 과정을 통해 새로운 형태의 클라우드에 대한 공부가 팀 내에서 이뤄진 것이 큰 의미가 있었습니다.”
고동규 엔지니어는 개발자로서도 새로운 형태의 클라우드 중심 환경에 대해 팀원들과 경험을 나누는 것의 의미를 높이 샀습니다. 직접 데이터센터를 설계하고, 운영하는 전통적 방식이 아니라 클라우드 위에서 적절한 서비스를 접목해서 온전한 서비스로 만들어내는 과정이 필요하다는 이야기입니다. 한 마디로 운영보다 개발에 집중할 수 있는 환경이 갖춰졌다는 것이지요. 서비스 장애에 대해서도 색다른 경험이 이어지고 있다는 설명도 인상적입니다.
“실제로 갑자기 더 큰 메모리가 필요한 경우가 생겼는데 이전같으면 메모리 부족으로 서비스가 중단됐을 상황에서도 구글 클라우드 플랫폼의 서비스들은 스스로 여유 자원을 끌어모아 정상적으로 작동을 이어갔고, 현재 필요한 메모리 자원을 판단해서 제안해주기도 했습니다.”
최근 공연 시장은 코로나19로 인해 오프라인 공연 자체가 멈춰 있는 상황입니다. 대신 많은 공연들이 온라인 스트리밍으로 전환되고, 시청권을 유료로 판매하는 움직임이 일고 있습니다. 세상이 한번도 경험해보지 못한 콘텐츠 소비 방법에도 마이뮤직테이스트는 데이터에 귀를 기울일 수 있는 시스템이 있기 때문에 변화에 예민하게 대응할 수 있었습니다.
어떤 어려움을 겪고 계신지 알려주세요. Google Cloud가 도와드리겠습니다.
문의하기MyMusicTaste에 대하여
“Stop wishing, Start making” 마이뮤직테이스트는 좋아하는 아티스트의 공연을 팬들의 도시에서 직접 만들 수 있는 기회를 제공한다는 아이디어에서 출발하였습니다. 마이뮤직테이스트는 팬들의 요청을 기반으로, 52개 이상의 도시에서 GOT7, MONSTA X, The xx, Kehlani 등 다양한 아티스트의 공연을 성공적으로 이뤄냈습니다.