데이터 분석

데이터 분석가 및 비즈니스 사용자를 위한 분석 정보의 민주화

2020년 12월 8일

Ryan Lippert

Product Manager

Sudhir Hasbe

Sr. Director of Product Management, Google Cloud

* 본 아티클의 원문은 2020년 11월 2일 Google Cloud 블로그(영문)에 게재되었습니다.

오늘부터 새롭게 연재될 시리즈에서는 지역, 규모, 산업과 무관하게 모든 기업이 공통적으로 지향하는 '데이터 기반'이란 개념을 살펴봅니다. 데이터가 존재한 이래 기업은 항상 데이터를 이용해 고객, 시장, 경쟁업체를 보다 잘 이해하려고 노력해 왔습니다. 최근 달라진 게 있다면 데이터 기반을 주도하는 핵심 요소, 즉 a) 데이터 가용성, b) 데이터 액세스, c) 분석 정보 액세스라는 3가지 요소의 속성이 바뀌고 있다는 점입니다.

이러한 요소가 확장, 즉 '민주화'되면서 기업은 하향 방식은 물론 상향, 수평 확장을 비롯한 모든 방향의 관리 체계를 개선할 수 있었습니다. 최근 Google Cloud와 Harvard Business Review의 공동 논문에 따르면 조사에 참여한 업계 리더 중 97%가 조직 전체에서 데이터 및 분석 정보 액세스를 민주화하는 것이 비즈니스 성공에 중요하다고 답했습니다. 이 블로그 시리즈에서는 '데이터 기반'의 의미와 그간 이 개념에 일어난 변화, 고객이 데이터로 할 수 있었던 일의 한계를 뛰어넘을 수 있도록 Google Cloud가 지원하는 방식에 대해 알아봅니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/data_and_analytics_for_everyone.max-1100x1100.jpg

현대 데이터 환경의 초창기 및 빅데이터의 부상

현대 기업의 보고 체계 및 비즈니스 인텔리전스는 1990년대 기업이 운영 보고 체계의 기반으로 엔터프라이즈 데이터 웨어하우스(EDW)를 사용하기 시작하면서 형성되었습니다. EDW가 발전하면서 비즈니스를 이해하는 역량도 크게 발전했고

분석가는 '어제 매출을 기반으로 오늘 예측되는 재고는?' 또는 '지난주 지역별 매출 통계는?'과 같은 질문을 하고 이에 답할 수 있게 되었습니다.

전통적인 비즈니스 중심 데이터 및 시스템의 위상은 오래 지속되지 못했습니다. 셀프서비스 BI가 등장하자마자 데이터 환경의 지평이 더욱 넓어지면서 새로운 종류의 신호에서 차별화된 분석 정보를 생성하기 위한 새로운 도구와 새로운 기술이 요구되었습니다. 또한 사회 전반의 디지털화(쇼핑 습관, 커뮤니케이션, 엔터테인먼트 등)로 인해 기업에 고객의 니즈를 보다 잘 해석하고 충족할 수 있는 새로운 기회의 장이 열렸습니다.

Google 사내 기술에 관한 여러 편의 학술 논문에 힘입어 새롭게 등장한 빅데이터 도구 집합으로 이제 데이터 엔지니어링 전문가는 이러한 새로운 데이터를 수집 및 보관하는 역량을 갖게 되었고, 이 데이터를 통해 전문가는 분석 정보를 도출할 수 있게 되었습니다. 초창기에 데이터 레이크를 빌드한 조직은 셀프서비스 BI의 눈부신 활약을 돌이켜 보며 빠른 시일 내에 가치가 창출되기를 기대했습니다. 안타깝게도 새로운 데이터와 이에 대한 액세스를 얻은 대부분의 비즈니스 사용자에게는 분석 정보를 도출할 기술이 부족했습니다. 초심자에게는 시스템이 너무 복잡했던 탓입니다.

구조화되지 않은 데이터가 대량 존재하는 새로운 세상에서는 데이터를 제공하고 액세스를 민주화하는 것만으로는 분석 정보를 얻을 수 없습니다. 가장 중요한 분석 정보를 민주화하기 위해서는 익숙한 도구의 기능을 확장하는 방법을 사용해야 했습니다. 기술이 사용자에게 다가와야지, 그 반대가 되어서는 안 됩니다. 이 아이디어가 Google Cloud팀에 문제 해결의 실마리를 주었습니다.

Google Cloud: 근본적으로 간소화된 도구를 통한 분석 정보의 민주화

Google Cloud에서는 사용자가 기존에 소유한 도구와 기술을 사용하여 분석 정보를 도출할 수 있도록 지원하는 데 초점을 맞췄습니다. 첫 단계는 보이지 않는 곳부터 시작되었습니다. 기술 스택의 백엔드를 자동화하여 '서버리스' 분석 개념의 개척을 도왔습니다. 이로써 리소스 프로비저닝, 규모 증가 대처, 성능 조정, 배포를 비롯해 스택 관리와 관련된 기술 업무가 사용자의 입력 없이 처리되었습니다. 사용자에게 필요한 건 분석뿐입니다. Google Cloud는 사용자 입력을 실행하는 번거로운 작업의 관리는 머신에게 맡기고 사용자는 업무에 몰두할 수 있는 단순한 사용자용 도구를 개발했습니다.

데이터 분석가가 데이터 액세스를 통해 심층 분석 정보를 도출하도록 지원

분석 정보를 민주화하고 도출하는 작업에 있어 가장 중요한 그룹은 데이터 분석가일 것입니다. Fortune지 선정 500대 기업의 데이터 관련직 근로자 중 가장 큰 비율을 차지할 이 직종은 데이터와 해결해야 하는 비즈니스 과제를 두루 잘 알고 있습니다. 데이터 분석가가 SQL 방식의 새로운 기능을 활용하기 시작하면서 고객은 비즈니스에 대한 새로운 시야를 얻게 되었습니다. 이 변화의 양상을 살펴보도록 하겠습니다.

첫째, 컴퓨팅과 스토리지를 분리한 덕분에 BigQuery가 컴퓨팅과 스토리지가 함께 확장되는 다른 데이터 웨어하우스에 비해 훨씬 경제적으로 더 많은 데이터를 저장할 수 있게 되었습니다. 이로써 고객은 '구조화된 데이터 레이크' 방식의 데이터 웨어하우징을 도입하게 되었고 데이터 웨어하우스 내에서 SQL을 사용하는 ELT(추출-로드-전환) 보급률이 높아졌습니다. 또한 데이터 웨어하우스에 더 많은 고품질 데이터가 상주할 수 있게 되어 데이터 액세스의 민주화로 이어졌습니다. 무엇보다도 익숙한 SQL 시맨틱스 방식의 데이터 웨어하우스처럼 친숙한 도구 내에서 데이터 액세스가 이루어지도록 확장한 것이 분석 정보 도출이 민주화된 중요한 계기가 되었습니다.

다음으로 Google은 분석가가 데이터 웨어하우스의 외부, 주로 Google Cloud Storage에서 데이터를 액세스하고자 한다는 사실을 알고 있었습니다. Google에서 SQL을 통해 데이터 액세스 경로를 빌드한 덕분에 분석가는 이전에는 사용할 수 없었던 데이터를 취합하여 새로운 분석 정보를 도출할 수 있게 되었습니다. 이와 같이 객체 스토리지와 데이터 웨어하우스가 서로 호환되면 데이터 분석가가 SQL을 사용하여 객체 스토리지를 쿼리할 수 있을 뿐만 아니라, 데이터 과학자와 데이터 엔지니어 또한 BigQuery에서 데이터에 대한 Spark 작업을 실행할 수 있습니다. 익숙한 도구를 통해 더 많은 데이터에 액세스할 수 있게 되자 자연스럽게 더 많은 분석 정보를 얻게 되었습니다.

비즈니스 사용자가 직관적인 도구를 통해 셀프서비스로 분석 정보를 도출할 수 있도록 지원

자동화 시스템의 큰 장점은 비즈니스 사용자가 자체적인 분석 정보를 쉽게 도출할 수 있는 간편한 인터페이스를 빌드하여 비즈니스 사용자에게 익숙했던 '요청 후 대기' 패러다임에서 탈피할 수 있다는 데 있습니다.

비즈니스 인텔리전스 도구는 비즈니스 사용자가 데이터 분석가의 분석 결과를 토대로 자체적인 분석 정보를 도출하거나 결정을 내려야 할 때 시작점으로 가장 흔히 사용됩니다. 현대 BI 도구는 대화형의 셀프서비스 기능을 제공하므로 비즈니스 사용자는 해결하고자 하는 구체적인 비즈니스 문제에 맞게 진행하려는 분석을 맞춤설정할 수 있습니다. 하지만 이러한 도구의 역량은 데이터를 제공하는 시스템의 역량에 의해 좌우됩니다. BigQuery에서 제공하는 서버리스 백엔드는 데이터 양이나 사용자 수에 필요한 만큼 얼마든지 확장을 허용하기 때문에 대화형의 셀프서비스 BI 도출 과정을 훨씬 수월하게 만듭니다.

BigQuery와 원활하게 연동되는 도구는 Tableau, Qlik, Microstrategy 와 같은 인기 BI 도구를 비롯해 헤아릴 수 없이 많습니다. Google Cloud 포트폴리오에 Looker가 편입되면서 비즈니스 사용자가 보다 쉽게 대시보드와 상호작용하고 데이터 기반 워크플로를 따르며 조직에 보다 높은 가치를 창출할 수 있게 되었습니다. 기업은 특정 워크플로 또는 애플리케이션의 단계마다 데이터를 삽입하여 일선 인력이 기본적으로 데이터 기반 분석 정보를 접할 수 있도록 제공할 수 있습니다. 일례로 Sunrun에서는 조직 간 측정항목을 정의했고 CCA에서는 양질의 활용 가능한 분석 정보를 코로나19로 고통받는 환자를 치료하는 의료인에게 제공하고 있습니다.

데이터와 데이터를 가지고 뭔가를 해야 한다는 기대 사이에는 긴밀한 상관관계가 있습니다.

발믹 쿠데시아 박사, CCA의 임상 정보학 및 고급 분석 담당 부사장

인용 트윗

Google은 셀프서비스 비즈니스 인텔리전스를 개선하는 것에 더해 친숙한 스프레드시트 도구에 새로운 기능을 도입하여 비즈니스 사용자가 분석 정보를 도출하도록 돕고 있습니다. 연결된 시트는 단순한 스프레드시트에 익숙한 수억 명의 비즈니스 사용자에게 BigQuery의 성능과 규모를 선사하는 기능입니다. 즉 SQL에 대한 지식이 없더라도 수십억 행과 페타바이트 단위의 데이터를 분석하여 유용한 정보를 도출함으로써 규모 있는 데이터 통계를 얻을 수 있습니다.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/BigQuery.gif

Google은 스프레드시트의 능력치를 엄청나게 끌어올리는 데 그치지 않고 BigQuery 기능의 구현 범위를 가장 오래된 쿼리 시스템인 자연어로 넓혀 비즈니스 사용자와 고객을 위한 분석 정보를 민주화했습니다. Data QnA는 비기술직 비즈니스 사용자들도 단순한 데이터에 관한 자연어 질문을 통해 원하는 데이터 분석 정보에 쉽게 액세스할 수 있도록 지원합니다. 따라서 누구나 BigQuery와 제휴 데이터 소스에 저장된 페타바이트 단위의 데이터를 대화 방식으로 분석할 수 있게 됩니다. Data QnA는 가장쉽게 데이터 분석에 이용할 수 있는 셀프서비스 도구로서 이 도구가 배포되는 비즈니스의 구석구석에 새로운 분석 정보와 데이터 기반 결정을 전달할 수 있습니다.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/Data_QnA.gif

“Veolia에서 비즈니스 파트너의 임시 분석 요청에 응답하려면 수 주가 걸리곤 했습니다. 지금은 보다 가치 있는 활동에 쓸 수 있는 시간이 늘었습니다”라고 Veolia의 데이터 및 로봇 관리자인 패브리스 니코는 말합니다. “현재 저희 BI팀에서는 자연어 질문을 통해 BigQuery 데이터에 셀프서비스로 액세스할 수 있는 기능을 지원하고 있습니다. 스프레드시트와 챗봇 같은 Google 서비스 덕분에 여유 시간이 훨씬 늘어나고 비즈니스 파트너도 자연어 기반 분석을 통해 실행 시간을 단축할 수 있으리라 기대합니다.”

마지막으로, 오늘날 데이터 분석 정보를 논하면서 실시간 분석과 머신러닝을 살펴보지 않고 넘어가기는 어려울 것입니다. 복잡한 빅데이터 세상에서 분석 정보를 추출하기 위해 머신러닝의 힘을 필요로 하는 조직이 늘어나고 있습니다. 특히 정보의 양이 방대한 경우 분석 정보를 데이터 세상에 파묻힌 보석이라고 한다면 머신러닝은 금속탐지기에 비유할 수 있을 것입니다. 실시간 데이터 분석은 고객 환경을 개선하고 더 나은 의사 결정을 내리며 많은 경우 심지어 자동화하는 데 핵심적인 역할을 합니다. Google Cloud는 이러한 기능의 민주화를 위해 많이 고민했고 투자했습니다. 그에 대한 이야기는 앞으로 연재될 블로그 시리즈에서 살펴보실 수 있습니다.

Google Cloud에서의 스마트 분석 자세히 알아보기

게시 위치