데이터 웨어하우스란?

엔터프라이즈 데이터 웨어하우스(EDW)라고도 하는 데이터 웨어하우스는 POS 거래, 마케팅 자동화, 고객 관계 관리 시스템 등의 여러 데이터 소스에서 가져온 구조화된 데이터와 반구조화된 데이터를 분석하고 보고하는 데 사용되는 엔터프라이즈 데이터 플랫폼입니다. 

데이터 웨어하우스에는 분석 데이터베이스와 중요한 분석 구성요소 및 절차가 포함됩니다. 데이터 파이프라인, 쿼리, 비즈니스 애플리케이션과 같은 임시 분석과 맞춤 보고를 지원합니다. 방대한 양의 현재 및 이전 데이터를 한곳에 통합할 수 있으며 시간 흐름에 따른 장기간의 데이터 동향을 확인할 수 있도록 설계되었습니다. 이러한 데이터 웨어하우스 기능은 데이터 웨어하우징이 정보에 입각한 비즈니스 결정을 지원하는 엔터프라이즈 분석의 주요 핵심 요소로 활용되었습니다.

Google Cloud의 비용 효율적인 서버리스 멀티 클라우드 엔터프라이즈 데이터 웨어하우스인 BigQuery에 대해 알아보세요.

데이터 웨어하우스의 정의

데이터 웨어하우스는 POS 트랜잭션, 마케팅 자동화, 고객 관계 관리 시스템 등의 여러 소스에서 가져온 구조화된 데이터와 반구조화된 데이터를 분석하고 보고하는 데 사용되는 엔터프라이즈 시스템입니다. 데이터 웨어하우스는 임시 분석과 커스텀 보고서 생성에 적합합니다. 데이터 웨어하우스는 현재 데이터와 과거 데이터를 모두 한곳에 저장할 수 있으며, 시간 흐름에 따른 장기간의 데이터 동향을 확인할 수 있도록 설계되었으므로 비즈니스 인텔리전스의 주요 구성요소입니다.

기존 데이터 웨어하우스와 클라우드 기반 데이터 웨어하우스 비교

기존 데이터 웨어하우스는 온프레미스에서 호스팅되며 관계형 데이터베이스, 트랜잭션 시스템, 비즈니스 애플리케이션, 기타 소스 시스템에서 데이터가 유입됩니다. 그러나 일반적으로 데이터의 하위 집합을 일괄적으로 캡처하고 엄격한 스키마를 기반으로 저장하도록 설계되었으므로 자발적 쿼리나 실시간 분석에는 적합하지 않습니다. 또한 기업은 온프레미스 데이터 웨어하우스가 있는 자체 하드웨어와 소프트웨어를 구매해야 하므로 확장 및 유지보수에 많은 비용이 듭니다. 기존 웨어하우스에서는 일반적으로 컴퓨팅에 비해 스토리지가 제한되므로 데이터를 빠르게 변환한 후 삭제하여 저장공간을 확보합니다.

오늘날의 데이터 분석 활동은 수익 창출, 비용 억제, 운영 개선, 고객 경험 향상 등 모든 핵심 비즈니스 활동의 중심으로 변화했습니다. 데이터가 진화하고 다양화됨에 따라 조직에는 조직 전반에서 대량의 데이터를 저장, 관리, 분석하기 위한 보다 강력한 데이터 웨어하우스 솔루션과 고급 분석 도구가 필요합니다. 

이러한 시스템은 규제 대상 산업에 맞게 확장 가능하고 안정적이며 충분히 안전해야 할 뿐 아니라, 다양한 데이터 유형 및 빅데이터 사용 사례를 지원할 수 있을 만큼 충분히 유연해야 합니다. 또한 유연한 가격 책정과 컴퓨팅을 지원해야 하므로 용량을 추측하는 대신 필요한 만큼만 비용을 지불하면 됩니다. 이러한 요구사항은 대부분의 기존 데이터 웨어하우스가 제공하는 기능을 능가합니다. 그 결과 많은 기업이 클라우드 기반 데이터 웨어하우스 솔루션으로 전환하고 있습니다.

클라우드 데이터 웨어하우스는 기존 데이터 웨어하우스와 비교하여 장단점이 없지만 기능을 확장하고 클라우드의 완전 관리형 서비스에서 실행됩니다. 클라우드 데이터 웨어하우징은 변화하는 비즈니스 요구사항을 충족하는 즉각적인 확장성과 복잡한 분석 쿼리를 지원하는 강력한 데이터 처리를 제공합니다. 

클라우드 데이터 웨어하우스를 사용하면 보다 예측 가능한 비용으로 클라우드 환경에 내재된 유연성을 활용할 수 있습니다. 온프레미스 데이터 웨어하우스 솔루션을 사용하면 클라우드 서비스 제공업체가 물리적 인프라를 관리하고 유지보수하므로 초기 투자 비용이 훨씬 적고 리드 타임도 단축됩니다. 

클라우드에서의 데이터 웨어하우징 작동 방식

기존 데이터 웨어하우스와 마찬가지로 클라우드 데이터 웨어하우스는 내부 및 외부 데이터 소스에서 데이터를 수집, 통합, 저장합니다. 데이터는 일반적으로 데이터 파이프라인을 사용하여 소스 시스템에서 전송됩니다. 데이터는 소스 시스템에서 추출되어 변환된 후 데이터 웨어하우스에 로드됩니다. 이 프로세스를 ETL(추출, 변환, 로드)이라고 합니다. 또한 데이터를 중앙 저장소로 직접 전송한 다음 ELT(추출, 로드, 변환) 프로세스를 사용하여 변환할 수도 있습니다. 여기에서 사용자는 다양한 비즈니스 인텔리전스(BI) 도구를 사용하여 데이터에 액세스하고 마이닝하고 보고할 수 있습니다. 또한 클라우드 데이터 웨어하우스는 실시간 또는 거의 실시간으로 데이터에서 활성화하기 위한 스트리밍 사용 사례를 지원해야 합니다.

클라우드 데이터 웨어하우스는 퍼블릭 클라우드 환경 내에서 정형 및 반정형 데이터 스토리지, 처리, 통합, 정리, 로드 등을 제공합니다. 또한 클라우드 데이터 레이크와 함께 사용하여 구조화되지 않은 데이터를 수집하고 저장할 수 있습니다. 일부 제공업체의 경우 데이터 웨어하우스와 데이터 레이크를 통합하여 엔터프라이즈 데이터의 단일 복사본을 유지관리하고 중앙에서 관리하는 것도 가능합니다. 

클라우드 제공업체마다 클라우드 데이터 웨어하우스 서비스와 관련하여 다양한 접근 방식을 취할 수 있습니다. 예를 들어 일부 클라우드 데이터 웨어하우스는 기존 데이터 웨어하우스와 유사한 클러스터 기반 아키텍처를 사용할 수 있습니다. 이와 대조적으로 최신 서버리스 아키텍처를 채택하여 데이터 관리 책임을 최소화하는 기업도 있습니다. 하지만 대부분의 클라우드 데이터 웨어하우스는 데이터 스토리지 및 용량 관리 기능이 내장되어 있고 자동 업그레이드를 제공합니다.

클라우드 데이터 웨어하우스의 기타 주요 기능은 다음과 같습니다. 

  • 대규모 병렬 처리(MPP)
  • 열 형식 데이터 스토어
  • 셀프서비스 ETL 및 ELT 데이터 통합  
  • 재해 복구 기능 및 자동 백업
  • 규정 준수 및 데이터 거버넌스 도구
  • BI, AI, 머신러닝을 위한 통합 기본 제공

클라우드 내 데이터 웨어하우징의 장점

점점 더 많은 기업들이 기존 데이터 웨어하우스에서 벗어나 클라우드로 마이그레이션하여 관리형 서비스가 제공할 수 있는 비용 절감 및 확장성의 이점을 누리고 있습니다. 

클라우드 데이터 웨어하우징의 주요 이점은 다음과 같습니다.

확장성을 고려한 설계

클라우드 데이터 웨어하우스는 탄력적이며, 스토리지와 용량을 거의 무제한으로 제공합니다. 비즈니스 요구사항의 변화에 따라 손쉽게 확장하거나 축소할 수 있으며 사용한 만큼만 비용을 지불하면 됩니다. 

머신러닝 및 AI 이니셔티브

고객은 데이터 마이닝, 비즈니스 성과 예측, 데이터 수명 주기 관리부터 비즈니스 프로세스, 운영 비용에 이르는 기타 영역 최적화를 위해 클라우드 데이터 웨어하우스를 대상으로 머신러닝 모델 및 AI 기술을 빠르게 활용하고 운용할 수 있습니다.

업타임 개선

클라우드 제공업체는 SLA를 충족하고 확장성과 안정성이 높은 클라우드 인프라로 뛰어난 업타임을 제공할 의무가 있습니다. 반면, 온프레미스 데이터 웨어하우스는 규모 및 리소스에 제한이 있어 성능에 영향을 미칠 수 있습니다.

비용 예측 가능성

클라우드를 사용하면 더 유연하고 예측 가능한 가격을 얻을 수 있습니다. 공급자에 따라 처리량별 요금이나 노드별 시간당 요금을 부과하는 경우도 있고, 일정량의 리소스에 대해 고정 요금을 부과하는 경우도 있습니다. 어떤 경우든, 실제 리소스 사용 여부에 관계없이 하루 24시간, 일주일 내내 운영되는 온프레미스 데이터 웨어하우스로 인해 발생하는 막대한 비용을 피할 수 있습니다.

운영 비용 절감

클라우드 데이터 웨어하우스는 완전 관리형이므로 서비스수준계약(SLA)을 충족해야 하는 클라우드 제공업체에 번거로운 관리 업무를 아웃소싱할 수 있습니다. 이를 통해 운영 비용을 절감하고 사내 팀이 성장 이니셔티브에 집중하도록 할 수 있습니다.

실시간 분석

클라우드 데이터 웨어하우스는 스트리밍 데이터를 지원하는 더욱 강력한 컴퓨팅을 제공하므로 실시간으로 데이터를 쿼리할 수 있습니다. 따라서 온프레미스 데이터 웨어하우스보다 훨씬 빠르게 데이터에 액세스하고 사용할 수 있으므로 보다 정확한 통계를 더 빠르게 얻고 정보에 입각한 비즈니스 결정을 내릴 수 있습니다.

데이터 웨어하우스의 용도

클라우드 데이터 웨어하우징은 조직에 도움이 될 수 있는 다양한 솔루션을 제공합니다. 가장 일반적인 데이터 웨어하우스 사용 사례는 다음과 같습니다.

실시간 의사 결정: 실시간으로 데이터를 분석하여 사전 문제 해결, 기회 파악, 효율성 확보, 비용 절감, 비즈니스 이벤트 사전 대응 등에 활용합니다.

사일로화된 데이터 통합: 조직 전체에서 POS 시스템, 웹사이트, 이메일 목록 등의 구조화된 여러 소스로부터 데이터를 신속하게 가져와서 한곳에서 분석을 수행하고 유용한 정보를 얻을 수 있습니다.

비즈니스 보고 및 임시 분석 지원: 과거 데이터를 운영 데이터와 별도의 서버에 보관하여 최종 사용자가 운영체제의 성능에 영향을 미치거나 IT의 도움을 기다리지 않고 직접 액세스하고 자체 쿼리와 보고서를 실행할 수 있도록 합니다.

머신러닝 및 AI 구현: 과거 데이터와 실시간 데이터를 수집하여 트래픽 급증을 예상하거나 웹사이트를 탐색하는 고객에게 관련 제품을 추천하는 등 예측 정보를 제공할 수 있는 알고리즘을 개발합니다.

많은 비즈니스 및 산업에서는 대규모이면서 지속적이고 실시간으로 진행되는 데이터 분석이 필요합니다. 예를 들어 일부 서비스 제공업체에서는 실시간 데이터를 사용하여 온종일 가격을 동적으로 조정합니다. 보험 회사에서는 정책, 판매량, 보험금 청구액, 지급 급여 등을 추적하기도 하고, 머신러닝을 사용하여 사기를 예측하기도 합니다. 게임 회사에서는 플레이어의 경험을 향상시키기 위해 실시간으로 사용자 행동을 추적하고 이에 대응해야 합니다. 데이터 웨어하우스는 이러한 모든 활동을 가능하게 합니다.

다음 조건에 해당하거나 다음 작업을 수행하는 조직이라면 데이터 웨어하우스가 매우 적합할 것입니다.

  • 여러 소스에 흩어져 있는 다양한 데이터
  • 빅데이터 분석 및 시각화(비동기식 및 실시간)
  • 머신러닝 모델 및 기타 AI 기반 프로세스
  • 스트리밍 분석
  • 커스텀 보고서 생성 및 임시 분석
  • 데이터 마이닝
  • 데이터 과학 및 지리정보 분석

클라우드 기반 데이터 웨어하우스 솔루션을 선택하는 방법

클라우드 기반 데이터 웨어하우스를 선택할 때는 솔루션의 작동 방식을 평가하고 클라우드 데이터 웨어하우스가 지원해야 하는 기존 사용 사례를 깊이 이해하는 것이 중요합니다. 

다른 제공업체를 선택할 때 웨어하우징 기능 외에도 아키텍처, 확장성, 보안, 가격 책정, 성능 등의 차이를 비롯한 여러 사항을 고려해야 합니다. 예를 들어 구현하기 쉬운 솔루션이 확장하기가 쉽지 않거나 현재 시스템을 업그레이드하기 위해 모든 데이터 분석가를 다시 학습시키고 추가 라이선스를 구매해야 할 수도 있습니다. 

공급업체 간 차이점을 살펴보는 것 외에도 클라우드 데이터 웨어하우스로의 마이그레이션에 구체적으로 어떤 내용이 수반되며 기존 IT 투자 및 특정 비즈니스 요구사항과 어떤 관련이 있는지 고려하는 것이 중요합니다. 

엔터프라이즈 데이터 웨어하우스는 조직의 의사 결정에서 핵심적인 역할을 합니다. 따라서 비즈니스 요구사항, 현재 사용 사례, 기존 솔루션과의 격차를 깊이 있게 이해해야 합니다. 프로세스 초기에 주요 이해관계자를 참여시켜 기존 데이터 웨어하우스 솔루션 교체의 영향, 과제를 해결하기 위한 기능 요구사항, 데이터 소스, 도구, 프레임워크 등에 대한 자세한 기술 정보를 파악하면 도움이 될 수 있습니다.

Google Cloud로 비즈니스 문제 해결

신규 고객에게는 Google Cloud에서 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
Google Cloud 영업 전문가와 고유한 문제에 대해 자세히 논의해 보세요.

다음 단계 수행

$300의 무료 크레딧과 20여 개의 항상 무료 제품으로 Google Cloud에서 빌드하세요.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
콘솔
Google Cloud