데이터 관리는 엔터프라이즈 분석을 강화하고 탁월한 고객 경험을 구축하는 데 있어 중요한 부분입니다. 데이터 레이크와 데이터 웨어하우스라는 용어를 많이 들어보셨을 텐데, 어떤 것이 프로젝트에 적합한지 알기는 어렵습니다. 이 두 시스템은 데이터를 서로 다른 방식으로 처리합니다. 데이터 레이크는 목적을 바로 정의하지 않는 원시 데이터의 대규모 풀과 같습니다. 데이터 웨어하우스는 특정 작업에 사용할 수 있도록 정리되고 필터링된 데이터의 라이브러리와 더 유사합니다. 차이점을 알면 데이터 요구사항에 맞는 적절한 도구를 선택하는 데 도움이 됩니다.
이 두 시스템의 주요 차이점은 데이터 구조와 사용을 처리하는 방식입니다. 데이터 레이크는 원시 비정형 데이터를 위한 것이고, 데이터 웨어하우스는 처리된 정형 데이터를 위한 것입니다.
기능 | 데이터 레이크 | 데이터 웨어하우스 |
데이터 유형 | 모든 데이터(원시, 정형, 비정형) | 처리된 정형 데이터 |
목적 | 아직 정의되지 않음 | 정의되고 구체적임 |
사용자 | 데이터 과학자, 데이터 엔지니어 | 데이터 분석가, 비즈니스 인텔리전스 분석가 |
접근성 | 유연성이 뛰어나고 변경이 용이함 | 변경이 더 어렵고 더 경직됨 |
처리 중 | 읽기 시 스키마(사용 시 정의) | 쓰기 시 스키마(저장 전에 정의됨) |
이점 |
|
|
기능
데이터 레이크
데이터 웨어하우스
데이터 유형
모든 데이터(원시, 정형, 비정형)
처리된 정형 데이터
목적
아직 정의되지 않음
정의되고 구체적임
사용자
데이터 과학자, 데이터 엔지니어
데이터 분석가, 비즈니스 인텔리전스 분석가
접근성
유연성이 뛰어나고 변경이 용이함
변경이 더 어렵고 더 경직됨
처리 중
읽기 시 스키마(사용 시 정의)
쓰기 시 스키마(저장 전에 정의됨)
이점
모바일 게임을 빌드한다고 가정해 보겠습니다. 모든 사용자의 모든 버튼 클릭을 추적하고 싶습니다. 다음 업데이트에 어떤 클릭이 중요한지 아직 알 수 없습니다. 이러한 모든 원시 JSON 이벤트를 데이터 레이크로 직접 전송할 수 있습니다. 나중에 데이터 과학자가 스크립트를 실행하여 원시 데이터에서 패턴을 찾을 수 있습니다.
또 다른 예는 IoT 센서입니다. 수천 개의 센서가 매초 온도 데이터를 전송하는 경우 해당 원시 데이터를 레이크에 덤프할 수 있습니다. 먼저 형식을 지정하는 방법을 걱정할 필요 없이 발생한 모든 일의 전체 기록을 확인할 수 있습니다.
매출을 추적해야 하는 소매 회사를 생각해 보세요. 매일 밤 시스템은 그날의 모든 주문을 가져와 주소를 정리하고 세금을 계산한 다음 데이터 웨어하우스에 저장합니다. 그러면 관리자는 보고서를 실행하여 시카고에서 판매된 파란색 셔츠의 정확한 수량을 확인할 수 있습니다. 데이터가 깔끔하게 정리되어 차트를 만들 준비가 되었습니다.
은행은 데이터 웨어하우스를 사용하여 계좌를 추적할 수도 있습니다. 은행은 언제든지 모든 고객의 정확한 잔액을 파악해야 합니다. 원시 로그가 아니라 모든 거래를 명확하게 보여주는 구조화된 테이블을 원합니다.
데이터 과학자는 실시간으로 사기성 예약 여부를 파악할 수 있는 AI 모델을 빌드해야 하는 경우가 많습니다. 데이터는 웹사이트 로그, 모바일 앱 이벤트, 서드 파티 파트너 등 다양한 곳에서 수집되므로 데이터 레이크가 AI 모델을 학습시키는 데 가장 적합합니다.
먼저 모든 원시 이벤트를 Cloud Storage로 전송하는 파이프라인을 설정합니다. 여기에는 웹사이트의 정리되지 않은 JSON 파일과 모바일 앱의 바이너리 로그가 포함됩니다. Cloud Storage는 이러한 규모에 맞게 빌드되었으므로 아직 데이터 형식을 지정할 필요는 없습니다.
AI 모델에 유용한 데이터를 만들려면 데이터를 정리해야 합니다. Apache Spark용 Google Cloud 서비스를 사용하여 서버리스 Apache Spark 작업을 실행할 수 있습니다. 이를 통해 서버나 클러스터를 관리할 필요 없이 수백만 개의 원시 로그를 정형화된 형식으로 변환할 수 있습니다.
데이터가 준비되었으니 이제 머신러닝 도구에 데이터를 공급할 수 있습니다. 원본 원시 데이터가 여전히 레이크에 있으므로 언제든지 돌아가서 모델을 더욱 개선하는 데 도움이 될 수 있는 '숨겨진' 세부정보를 살펴볼 수 있습니다.
데이터 레이크를 사용하면 모든 것을 저렴한 비용으로 저장하고 모델을 빌드할 때 필요한 것만 처리할 수 있습니다.
이제 소매업체를 위한 데이터 과학 사용 사례를 살펴보겠습니다. 회사가 다음 달에 판매할 겨울 코트 수량을 예측할 수 있으며, 판매 데이터가 이미 정리되어 데이터베이스에 저장되어 있으므로 이 작업에는 데이터 웨어하우스를 사용하는 것이 좋습니다.
회사의 중앙 데이터 웨어하우스 역할을 하는 BigQuery부터 시작합니다. 판매 데이터는 이미 날짜, 가격, 제품 ID 열이 있는 깔끔한 테이블로 정리되어 있습니다. 데이터가 이미 구조화되어 있으므로 정리하는 데 시간을 낭비할 필요가 없습니다.
지난 5년간의 겨울 매출을 확인하는 SQL 쿼리를 작성합니다. 수십억 개의 데이터 행이 있더라도 BigQuery는 몇 초 만에 답을 찾아냅니다. 빠른 속도를 통해 다양한 아이디어를 시도하고 예측을 빠르게 개선할 수 있습니다.
예측이 준비되면 기본 제공 도구를 사용하여 대시보드를 만들 수 있습니다. 이제 마케팅팀은 주문해야 할 코트의 정확한 수량을 파악할 수 있습니다. BigQuery는 서버리스이므로 회사는 실행하는 쿼리에 대해서만 비용을 지불하면 되므로 비용이 낮게 유지됩니다.
이 사용 사례에서는 데이터 웨어하우스가 가장 적합한 도구입니다. 이미 사용 가능한 형식으로 되어 있는 데이터를 사용하여 특정 비즈니스 질문에 대한 빠르고 신뢰할 수 있는 답변을 제공하기 때문입니다.
데이터 레이크와 데이터 웨어하우스 중 어떤 것을 선택할지는 빌드하려는 대상에 따라 달라집니다. 원시 데이터가 많고 코드로 탐색하고 싶다면 데이터 레이크로 시작하세요. 특정 비즈니스 질문이 있고 빠르고 신뢰할 수 있는 보고서를 원한다면 데이터 웨어하우스가 더 나은 선택일 수 있습니다. 많은 엔터프라이즈 기업이 두 가지를 함께 사용하여 두 기술의 장점을 모두 활용하고 있습니다.