전 세계 조직에서는 빅데이터의 볼륨, 지연 시간, 복원력, 데이터 액세스 요구사항을 관리할 수 있는 스토리지 솔루션을 찾고 있습니다. 처음에는 기존 기술 스택을 활용하여 데이터 레이크에서 웨어하우스와 동일한 기능을 제공하도록 하거나, 일부 구조화된 대량 데이터를 처리하도록 데이터 웨어하우스를 조정하거나, 데이터 레이크와 웨어하우스 모두에 데이터를 보관하기로 결정했습니다.
결과적으로 이러한 접근 방식은 비즈니스 전반에서 높은 비용, 사용자 불만족, 데이터 중복으로 이어졌습니다. 데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 이점을 모두 제공하는 동시에 두 시스템의 약점을 제거하는 것을 목표로 하는 새로운 하이브리드 데이터 아키텍처로 떠오르고 있습니다.
Google Cloud는 저비용 스토리지, 서버리스 컴퓨팅 엔진, 강력한 데이터 관리 서비스를 기반으로 확장성이 뛰어나고 안전한 클라우드 네이티브 데이터 레이크하우스 솔루션을 제공합니다. Google Cloud가 공공 데이터 레이크하우스를 구축하는 데 어떻게 도움이 되는지 알아보세요.
데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스를 결합한 데이터 아키텍처입니다. 데이터 레이크하우스는 머신러닝, 비즈니스 인텔리전스, 예측 분석을 지원합니다. 이를 통해 조직은 구조화된 데이터, 구조화되지 않은 데이터, 일부 구조화된 데이터 등 모든 유형의 데이터에 대해 저렴하고 유연한 스토리지를 활용하는 동시에 데이터 구조 및 데이터 관리 기능을 제공할 수 있습니다.
데이터 레이크하우스는 데이터 레이크의 주요 이점(원본 형태의 원시 데이터가 저장된 대규모 저장소)과 데이터 웨어하우스의 주요 이점(잘 정리된 구조화된 데이터 집합)을 결합하여 단일 플랫폼을 만드는 최신 데이터 아키텍처입니다. 특히 데이터 레이크하우스를 사용하면 조직은 저비용 스토리지를 사용해 많은 양의 원시 데이터를 저장하는 동시에 구조화 및 데이터 관리 기능을 제공할 수 있습니다.
이전에는 기본 시스템의 과부하와 같은 리소스에 대한 경합을 방지하기 위해 데이터 웨어하우스와 데이터 레이크를 별도의 사일로화된 아키텍처로 구현해야 했습니다. 기업은 데이터 웨어하우스를 사용하여 비즈니스 인텔리전스(BI) 및 보고용 구조화된 데이터를 저장하고 데이터 레이크를 사용하여 머신러닝(ML) 워크로드용 구조화되지 않은 데이터 및 일부 구조화된 데이터를 저장했습니다. 그러나 이 접근 방식에서는 다른 아키텍처의 데이터를 함께 처리해야 할 때 데이터를 두 개의 개별 시스템 간에 정기적으로 이동해야 했기 때문에 복잡성과 비용이 증가하며 데이터 최신 상태, 중복, 일관성 관련 문제가 발생했습니다.
데이터 레이크하우스의 목표는 이러한 사일로를 허물고 데이터에서 비효율성이 아닌 비즈니스 가치를 창출하는 데 필요한 유연성, 확장성, 민첩성을 제공하는 것입니다.
'데이터 레이크하우스'는 데이터 웨어하우스와 데이터 레이크라는 두 가지 유형의 기존 데이터 저장소를 합친 용어입니다. 그렇다면 데이터 레이크하우스, 데이터 레이크, 데이터 웨어하우스의 차이점은 무엇일까요?
데이터 웨어하우스는 의사 결정을 위한 보고서 및 통계를 생성해야 하는 비즈니스 사용자에게 신속한 데이터 액세스 기능 및 SQL 호환성을 제공합니다. 모든 데이터는 ETL(추출, 변환, 로드) 단계를 거쳐야 합니다. 즉, 로드되기 전의 사용 사례를 기반으로 특정 형식이나 스키마에 맞게 최적화되어 고성능 쿼리와 데이터 무결성을 지원합니다. 그러나 이 접근 방법을 이용할 경우 데이터 액세스 유연성이 제한되고 향후 사용을 위해 데이터를 이전해야 하는 경우 추가 비용이 발생합니다.
데이터 레이크는 대량의 구조화된 데이터 및 구조화되지 않은 데이터를 기본 형식으로 저장합니다. 데이터 웨어하우스와 달리 분석 중에 데이터가 처리, 정리, 변환되어 로드 속도가 빨라지므로 빅데이터 처리, 머신러닝 또는 예측 분석에 이상적입니다. 하지만 데이터 과학에 대한 전문 지식을 갖춘 사용자로 데이터 사용 가능 집단이 제한되므로 이러한 인력이 제대로 유지 관리되지 않을 경우 시간이 지남에 따라 데이터 품질이 저하될 수 있습니다. 또한 데이터 레이크를 사용하면 데이터가 처리되지 않기 때문에 실시간 쿼리를 수행하기가 더 어려워지므로 데이터를 사용하기 전에 정리, 처리, 수집, 통합 작업이 필요할 수 있습니다.
데이터 레이크하우스는 이 두 가지 접근 방식을 병합하여 BI부터 데이터 과학, 머신러닝에 이르기까지 다양한 목적으로 데이터에 액세스하고 데이터를 활용할 수 있는 단일 구조를 만듭니다. 즉, 데이터 레이크하우스는 조직의 구조화된 데이터, 구조화되지 않은 데이터, 일부 구조화된 데이터를 모두 캡처하여 저렴한 스토리지에 저장하는 동시에 모든 사용자가 필요에 따라 데이터를 구성하고 탐색할 수 있는 기능을 제공합니다.
주요 데이터 레이크하우스의 특징은 다음과 같습니다.
레이크하우스의 소스 데이터에 대한 BI 앱 직접 액세스를 통해 데이터 중복 축소
데이터 레이크하우스를 사용할 때 달성하고자 하는 바를 고려하는 것이 중요합니다. 데이터 레이크하우스의 목표는 별개의 데이터 소스를 중앙 집중화하고 엔지니어링 작업을 간소화하여 조직의 모든 사용자가 데이터 사용자가 될 수 있도록 하는 것입니다.
데이터 레이크하우스는 데이터 레이크의 저렴한 클라우드 객체 스토리지를 그대로 사용하여 손쉽게 프로비저닝하고 확장할 수 있는 주문형 스토리지를 제공합니다. 데이터 레이크와 마찬가지로 모든 유형의 대용량 데이터를 원시 형식으로 캡처하고 저장할 수 있습니다. 레이크하우스는 이 저장소에 메타데이터 레이어를 통합하여 구조화된 스키마, ACID 트랜잭션 지원, 데이터 거버넌스, 기타 데이터 관리 및 최적화 기능 등 웨어하우스와 유사한 기능을 제공합니다.
간소화된 아키텍처 데이터 레이크하우스의 경우 별도의 두 플랫폼의 사일로를 제거하므로 단일 데이터 저장소를 관리하고 유지보수하는 데에만 집중하면 됩니다. 또한 도구를 소스 데이터에 직접 연결할 수 있으므로 데이터 웨어하우스에서 사용할 데이터를 추출하거나 준비할 필요가 없습니다. | 데이터 품질 개선 데이터 레이크하우스 아키텍처에서 정형 데이터 스키마와 데이터 무결성을 적용하여 일관성을 보장할 수 있습니다. 또한 레이크하우스는 새로운 데이터를 제공하는 데 걸리는 시간을 줄여 데이터가 최신 상태로 유지되도록 돕습니다. | 비용 절감 저렴한 스토리지에 대량의 데이터를 저장할 수 있으며 데이터 웨어하우스와 데이터 레이크를 모두 유지관리할 필요가 없습니다. 데이터 레이크하우스는 ETL 프로세스 및 중복 삭제로 인한 비용을 절감하는 데도 도움이 됩니다. |
안정성 증가 데이터 레이크하우스는 여러 시스템 간 ETL 데이터 전송을 줄여 데이터 이동 시 발생할 수 있는 품질 또는 기술적 문제의 가능성을 줄입니다. | 데이터 거버넌스 개선 데이터와 리소스가 데이터 레이크하우스와 한곳에 통합되므로 거버넌스와 보안 제어를 손쉽게 구현, 테스트, 제공할 수 있습니다. | 데이터 중복 감소 서로 다른 시스템에 데이터 사본이 많이 존재할수록 일관성이 없고 신뢰성이 떨어질 가능성이 높습니다. 데이터 레이크하우스를 사용하면 결정을 내리기 위해 비즈니스 전반에서 공유할 수 있는 단일 데이터 소스를 확보하여 데이터 중복으로 인한 불일치와 추가 스토리지 비용을 방지할 수 있습니다. |
다양한 워크로드 여러 도구를 레이크하우스에 직접 연결하여 같은 저장소에서 분석, SQL, 머신러닝, 데이터 과학 워크로드를 지원할 수 있습니다. | 높은 확장성 데이터 레이크하우스의 저비용 클라우드 객체 스토리지를 사용하면 컴퓨팅을 스토리지에서 분리하여 무제한에 가까우며 즉각적인 확장성을 제공할 수 있습니다. 비즈니스 니즈에 따라 컴퓨팅 성능과 스토리지를 개별적으로 확장할 수 있습니다. |
간소화된 아키텍처
데이터 레이크하우스의 경우 별도의 두 플랫폼의 사일로를 제거하므로 단일 데이터 저장소를 관리하고 유지보수하는 데에만 집중하면 됩니다. 또한 도구를 소스 데이터에 직접 연결할 수 있으므로 데이터 웨어하우스에서 사용할 데이터를 추출하거나 준비할 필요가 없습니다.
데이터 품질 개선
데이터 레이크하우스 아키텍처에서 정형 데이터 스키마와 데이터 무결성을 적용하여 일관성을 보장할 수 있습니다. 또한 레이크하우스는 새로운 데이터를 제공하는 데 걸리는 시간을 줄여 데이터가 최신 상태로 유지되도록 돕습니다.
비용 절감
저렴한 스토리지에 대량의 데이터를 저장할 수 있으며 데이터 웨어하우스와 데이터 레이크를 모두 유지관리할 필요가 없습니다. 데이터 레이크하우스는 ETL 프로세스 및 중복 삭제로 인한 비용을 절감하는 데도 도움이 됩니다.
안정성 증가
데이터 레이크하우스는 여러 시스템 간 ETL 데이터 전송을 줄여 데이터 이동 시 발생할 수 있는 품질 또는 기술적 문제의 가능성을 줄입니다.
데이터 거버넌스 개선
데이터와 리소스가 데이터 레이크하우스와 한곳에 통합되므로 거버넌스와 보안 제어를 손쉽게 구현, 테스트, 제공할 수 있습니다.
데이터 중복 감소
서로 다른 시스템에 데이터 사본이 많이 존재할수록 일관성이 없고 신뢰성이 떨어질 가능성이 높습니다. 데이터 레이크하우스를 사용하면 결정을 내리기 위해 비즈니스 전반에서 공유할 수 있는 단일 데이터 소스를 확보하여 데이터 중복으로 인한 불일치와 추가 스토리지 비용을 방지할 수 있습니다.
다양한 워크로드
여러 도구를 레이크하우스에 직접 연결하여 같은 저장소에서 분석, SQL, 머신러닝, 데이터 과학 워크로드를 지원할 수 있습니다.
높은 확장성
데이터 레이크하우스의 저비용 클라우드 객체 스토리지를 사용하면 컴퓨팅을 스토리지에서 분리하여 무제한에 가까우며 즉각적인 확장성을 제공할 수 있습니다. 비즈니스 니즈에 따라 컴퓨팅 성능과 스토리지를 개별적으로 확장할 수 있습니다.
데이터 레이크하우스의 개념은 아직은 비교적 생소합니다. 이는 데이터 레이크하우스가 계속 발전하고 있으며 모범사례 정의가 아직 얼리 어답터에 의해 진행 중인 현실에 대응해야 한다는 가장 큰 과제가 있음을 의미합니다.
또한 데이터 레이크하우스는 처음부터 빌드하기가 복잡합니다. 대부분의 경우 즉시 사용 가능한 데이터 레이크하우스 솔루션을 선택하거나 개방형 레이크하우스 아키텍처를 지원하는 데 필요한 모든 구성요소를 제공하는 Google Cloud와 같은 플랫폼을 사용해야 합니다.
데이터 레이크하우스 아키텍처는 다음과 같은 레이어로 구성됩니다.
기존 데이터 레이크하우스의 예로는 Databricks Lakehouse Platform, Amazon Redshift Spectrum 등이 있습니다. 그러나 기술이 계속 발전하고 데이터 레이크하우스 도입이 증가하면서 구현 방식이 레이크하우스 구성요소를 특정 데이터 레이크로 결합하는 방식에서 변화하고 있습니다.
예를 들어 Google Cloud 접근 방식에서는 엔터프라이즈 데이터 운영, 데이터 레이크, 데이터 웨어하우스의 핵심 기능을 통합합니다. 이러한 구현은 BigQuery의 스토리지와 컴퓨팅 성능을 데이터 레이크하우스 아키텍처의 중심에 둡니다. 그러면 Dataplex와 Analytics Hub를 사용하여 통합 거버넌스 접근 방식 및 기타 웨어하우스와 유사한 기능을 적용할 수 있습니다.
BigQuery는 Google Cloud 생태계와 통합될 뿐만 아니라 파트너 및 오픈소스 기술을 사용하여 레이크 및 웨어하우스 기능의 장점을 단일 시스템에 통합할 수 있습니다.
Google Cloud에서는 데이터 웨어하우스 및 데이터 레이크에 대한 데이터 액세스를 간소화하는 통합 스토리지 엔진인 BigLake를 현재 미리보기 버전으로 출시함으로써 이 접근 방식을 계속 발전시키고 있습니다. 세분화된 액세스 제어를 적용하고 분산된 데이터에서 쿼리 성능을 가속화할 수 있습니다.