데이터 메시는 복잡한 조직에서 데이터를 관리하기 위한 아키텍처 프레임워크입니다. 중앙 집중식 모델과 달리 데이터 메시는 데이터 소유권을 전문 분야별 팀에 분산합니다. 이 접근방식은 데이터를 제품으로 취급하여 병목 현상을 제거하는 데 도움이 될 수 있지만 새로운 리소스 요구사항도 도입합니다. 데이터 메시의 성공 여부는 전문 분야 팀이 특정 데이터 엔지니어링 기술과 거버넌스 역량을 갖추고 있는지에 달려 있습니다. 분산된 팀을 지원할 리소스가 있는 조직의 경우 데이터 메시를 통해 민첩성을 개선할 수 있습니다. 그외의 조직의 경우 데이터 웨어하우스 또는 데이터 레이크와 같은 중앙 집중식 모델이 더 효율적인 솔루션일 수 있습니다.
데이터 메시란 새로운 도구나 기술의 집합이 아니라 기업이 데이터에 대해 생각하는 방식의 변화입니다. 데이터 메시 접근방식을 안내하는 4가지 핵심 원칙이 있습니다. 이러한 원칙 덕분에 이 접근방식은 기존의 중앙 집중식 데이터 아키텍처의 문제를 해결하는 데 매우 효과적입니다.
기존의 데이터 아키텍처에서는 IT팀이나 데이터 엔지니어링팀과 같은 단일 중앙팀이 모든 데이터를 담당합니다. 데이터 메시에서는 데이터 소유권이 데이터를 생성하는 비즈니스 도메인으로 분산됩니다. 예를 들어 영업팀은 영업팀에서 생성한 고객 데이터를 소유하고 마케팅팀은 마케팅팀에서 생성한 캠페인 데이터를 소유합니다. 이를 통해 팀은 생성하는 데이터에 대해 더 큰 책임과 책무를 갖게 됩니다.
전문 분야 지향 소유권에서는 데이터를 생성하는 팀이 데이터를 제품처럼 취급해야 합니다. 회사가 고객에게 고품질 제품을 제공하는 것처럼 데이터 도메인팀은 데이터가 필요한 다른 팀에 고품질 데이터를 제공해야 합니다. 즉, 데이터를 쉽게 발견하고 이해하며 사용할 수 있다는 것입니다. 또한 적절한 사용자만 사용 사례에 맞는 데이터에 액세스할 수 있도록 신뢰할 수 있고 안전하며 잘 문서화되고 액세스 제어가 내장되어 있어야 합니다.
데이터를 제품으로 취급할 수 있도록 데이터 메시에서는 셀프서비스 플랫폼을 사용합니다. 이 플랫폼은 데이터 도메인팀이 중앙 데이터팀의 도움 없이도 데이터 제품을 쉽게 만들고 관리할 수 있도록 지원하는 도구와 서비스의 모음입니다. 데이터 스토리지, 보안, 거버넌스 등 데이터 관리에 수반되는 많은 기술 작업을 자동화하는 간단하고 사용하기 쉬운 플랫폼이 될 수 있습니다.
데이터가 분산되어 있고 여러 팀에 걸쳐 퍼져 있기 때문에 모든 사람이 동일한 규칙을 따르도록 보장하는 방법이 필요합니다. 이때 통합 컴퓨팅 거버넌스가 필요합니다. 이 모델에서는 소규모의 중앙팀이 모든 데이터에 대한 전역 규칙과 표준을 설정합니다. 그러나 이러한 규칙의 시행은 데이터 도메인팀 자체에서 처리합니다. 이는 중앙 집중식 정책과 분산형 실행이라는 두 가지 장점을 결합한 것입니다.
데이터 메시의 데이터 제품은 찾고, 다루고, 신뢰할 수 있어야 하며, 자체 설명이 가능하고, 안전해야 합니다. 데이터 소비자는 데이터를 쉽게 발견하고, 무엇인지 이해하며, 고품질임을 알 수 있어야 합니다. 또한 보안을 보장하기 위해 명확하고 일관된 액세스 규칙이 있어야 합니다.
데이터 메시를 시작하는 것은 점진적인 프로세스입니다. 소규모 파일럿 프로젝트와 자발적인 몇몇 전문 분야 팀으로 시작하는 것이 가장 좋습니다. 먼저 데이터 자율성이 강화되면 이점을 얻을 수 있는 비즈니스 도메인을 파악합니다. 그런 다음 해당 팀이 데이터 제품을 만들 수 있는 최소한의 셀프서비스 플랫폼을 만듭니다. 프로젝트가 성공하면 결과를 개념 증명으로 사용하여 조직에서 보다 광범위하게 데이터 메시 아키텍처를 도입하도록 설득할 수 있습니다.
가장 큰 과제 중 하나는 문화적 변화입니다. 중앙 집중식 데이터팀이 제어권을 포기하기는 어려울 수 있습니다. 데이터 보안을 보장하고 분산 시스템을 관리하는 것과 같은 기술적 과제도 있습니다. 그러나 신중한 계획과 명확한 커뮤니케이션 전략을 통해 이러한 과제를 극복할 수 있습니다.
데이터 메시는 기존 데이터 시스템과 함께 사용하도록 설계되었습니다. 현재 데이터 레이크나 데이터 웨어하우스를 폐기할 필요가 없습니다. 대신 이러한 기술 위에 구현할 수 있습니다. 데이터 메시를 새로운 레이어로 활용하면 팀이 다양한 소스의 데이터에 액세스할 수 있는 통합된 셀프서비스 방식을 제공할 수 있습니다.
데이터 메시를 구매할 수 있는 제품이라고 오해하는 경우가 많습니다. 하지만 그런 시술을 말하는 게 아닙니다. 데이터를 정리하고 관리하는 새로운 방식입니다. 또 다른 오해는 대기업에서만 사용된다는 것입니다. 대기업에서 가장 흔히 사용되는 방식이지만, 소규모 조직에도 원칙을 적용할 수 있습니다.
데이터 메시의 성공 여부를 측정하기란 까다로울 수 있습니다. 그 이유는 혜택이 처음에는 재정적인 것이 아닌 경우가 많기 때문입니다. 대신 데이터 전송 속도, 데이터 플랫폼을 사용하는 팀 수, 팀이 소비하는 데이터에 대한 신뢰도 등을 살펴봄으로써 성공 여부를 측정할 수 있습니다. 시간이 지남에 따라 이러한 개선사항은 더 나은 비즈니스 성과와 더 높은 투자수익(ROI)으로 이어질 수 있습니다.
데이터 메시 접근방식은 기존 데이터 아키텍처의 일반적인 문제를 해결하기 위해 만들어졌습니다. 개별 부서 또는 팀이 소유한 데이터 웨어하우스나 데이터 레이크와 같은 이러한 모델은 특히 회사가 성장함에 따라 데이터 사일로와 거버넌스 위험을 초래할 수 있습니다. 데이터 메시에서는 소유권을 분산하고 개별 팀에 권한을 부여하는 동시에 도메인 전반에서 데이터를 관리하고 모니터링하기 위한 중앙 제어를 유지함으로써 이러한 문제를 해결합니다.
특성 | 데이터 메시 | 기존 아키텍처 |
아키텍처 모델 | 비즈니스 도메인 전반에 분산되어 있습니다. | 중앙 집중적이고 모놀리식이며 단일 팀에서 관리합니다. |
데이터 소유권 | 데이터는 데이터를 생성하고 사용하는 전문 분야 팀이 소유합니다. | 데이터는 중앙 데이터팀에서 소유하고 관리합니다. |
데이터 액세스 | 팀은 표준화된 데이터 제품을 통해 데이터에 액세스합니다. | 팀에서 데이터를 얻기 위해 중앙팀을 거쳐야 합니다. |
확장성 | 새로운 전문 분야 팀과 데이터 제품이 추가될 때 쉽게 확장할 수 있습니다. | 조직과 데이터 볼륨이 증가함에 따라 병목 현상이 발생할 수 있습니다. |
데이터 품질 | 전문 분야 팀은 자체 데이터 품질에 대한 책임을 지므로 신뢰도와 정확성을 높일 수 있습니다. | 중앙팀이 각 도메인의 컨텍스트를 제대로 파악하지 못하면 데이터 품질이 일관되지 않을 수 있습니다. |
데이터 거버넌스 | 거버넌스는 통합되어 있으며, 글로벌 표준과 규칙은 중앙에서 설정되지만 전문 분야 팀에서 시행됩니다. | 거버넌스는 중앙 집중화되어 있으며 하나의 팀에서 전적으로 처리합니다. |
사용 사례 | 다양한 데이터와 독립적인 사업부를 갖춘 대규모의 복잡한 조직에 가장 적합할 수 있습니다. | 소규모 조직이나 단일 정보 소스가 필요한 특정 사용 사례에 가장 적합할 수 있습니다. |
필요한 기술 전문성/리소스 | 각 전문 분야 팀 내에서 분산된 기술적 기술(엔지니어링, 거버넌스)이 필요합니다. | 하나의 핵심 IT 또는 데이터 엔지니어링팀에 기술 전문성을 집중화합니다. |
데이터 메시
기존 아키텍처
아키텍처 모델
비즈니스 도메인 전반에 분산되어 있습니다.
중앙 집중적이고 모놀리식이며 단일 팀에서 관리합니다.
데이터 소유권
데이터는 데이터를 생성하고 사용하는 전문 분야 팀이 소유합니다.
데이터는 중앙 데이터팀에서 소유하고 관리합니다.
데이터 액세스
팀은 표준화된 데이터 제품을 통해 데이터에 액세스합니다.
팀에서 데이터를 얻기 위해 중앙팀을 거쳐야 합니다.
확장성
새로운 전문 분야 팀과 데이터 제품이 추가될 때 쉽게 확장할 수 있습니다.
조직과 데이터 볼륨이 증가함에 따라 병목 현상이 발생할 수 있습니다.
데이터 품질
전문 분야 팀은 자체 데이터 품질에 대한 책임을 지므로 신뢰도와 정확성을 높일 수 있습니다.
중앙팀이 각 도메인의 컨텍스트를 제대로 파악하지 못하면 데이터 품질이 일관되지 않을 수 있습니다.
데이터 거버넌스
거버넌스는 통합되어 있으며, 글로벌 표준과 규칙은 중앙에서 설정되지만 전문 분야 팀에서 시행됩니다.
거버넌스는 중앙 집중화되어 있으며 하나의 팀에서 전적으로 처리합니다.
사용 사례
다양한 데이터와 독립적인 사업부를 갖춘 대규모의 복잡한 조직에 가장 적합할 수 있습니다.
소규모 조직이나 단일 정보 소스가 필요한 특정 사용 사례에 가장 적합할 수 있습니다.
필요한 기술 전문성/리소스
각 전문 분야 팀 내에서 분산된 기술적 기술(엔지니어링, 거버넌스)이 필요합니다.
하나의 핵심 IT 또는 데이터 엔지니어링팀에 기술 전문성을 집중화합니다.
데이터 메시 접근 방식은 여러 사업부와 대량의 데이터를 보유한 대규모의 복잡한 조직에 특히 유용할 수 있습니다. 데이터 메시가 상당한 가치를 제공할 수 있는 몇 가지 일반적인 사용 사례를 소개합니다.
데이터 메시를 사용하면 조직이 데이터 분석 및 비즈니스 인텔리전스(BI) 이니셔티브에서 더 많은 가치를 얻을 수 있습니다. 데이터 과학자와 분석가는 다양한 전문 분야의 데이터 제품을 통해 비즈니스를 보다 완전하게 파악할 수 있습니다. 예를 들어 소매업체는 판매 도메인의 고객 데이터와 마케팅 도메인의 웹 트래픽 데이터를 결합하여 고객 행동을 더 잘 이해할 수 있습니다.
고객 360 이니셔티브는 다양한 소스의 데이터를 결합하여 고객의 정보를 완전히 파악하는 것을 목표로 합니다. 중앙 집중식 데이터 아키텍처에서는 데이터가 여러 부서에 분산되어 사일로화 된 경우가 많기 때문에 이는 어려울 수 있습니다. 데이터 메시를 사용하면 영업, 마케팅, 지원 등 다양한 도메인의 데이터 제품에 액세스하고 결합하는 표준화된 방법을 제공하여 훨씬 더 쉽게 이 작업을 수행할 수 있습니다.
금융 서비스에서는 데이터 메시를 사용하여 실시간 모니터링과 사기 감지를 수행할 수 있습니다. 예를 들어, 은행에 거래에 대한 데이터 제품과 고객 로그인 데이터에 대한 데이터 제품이 있다고 가정해 보겠습니다. 그러면 사기 감지 시스템이 두 데이터 제품에 모두 액세스하여 의심스러운 활동을 식별할 수 있습니다. 데이터 메시의 분산된 특성은 이러한 종류의 애플리케이션에 필요한 속도와 안정성을 확보하는 데 도움이 될 수 있습니다.
데이터 개인 정보 보호 규정이 점점 더 복잡해짐에 따라 중앙 집중식 데이터 모델에서 규정 준수를 보장하기가 어려워질 수 있습니다. 데이터 메시는 전문 분야 팀이 자체 데이터 제품을 관리하고 현지 법률을 준수하도록 함으로써 규정 준수에 도움이 될 수 있습니다. 이는 여러 국가에서 서로 다른 데이터 주권 규칙을 준수해야 하는 다국적 기업에 특히 중요합니다.
고급 AI 애플리케이션과 에이전트가 효과적으로 작동하려면 컨텍스트를 고려한 고품질의 데이터가 필요합니다. 데이터 메시에서 전문 분야 팀은 소비를 위해 특별히 데이터를 선별하여 데이터가 정리되고, 레이블이 지정되고, 문서화되도록 보장합니다. 이를 통해 데이터 과학자는 데이터 준비에 과도한 시간을 들이지 않고도 신뢰할 수 있는 입력을 통해 모델을 학습시킬 수 있습니다. 또한 AI 에이전트는 API를 통해 이러한 모듈형 데이터 제품에 액세스하여 실시간 정보를 검색하고, 이를 통해 다양한 비즈니스 도메인에서 복잡한 작업을 더욱 정확하게 수행할 수 있습니다.
데이터 메시를 도입하면 조직에 상당한 이점을 제공할 수 있습니다. 분산형 모델로 전환하면 기업은 기존 아키텍처의 병목 현상을 극복하고 더 나은 비즈니스 성과를 달성할 수 있습니다.
민첩성과 확장성
데이터 메시를 사용하면 더 민첩해질 수 있습니다. 각 데이터 도메인은 독립적으로 작동할 수 있으므로 조직이 더 빠르게 확장하고 발전할 수 있습니다. 중단 없이 새로운 데이터 제품과 서비스를 더 쉽게 추가할 수 있습니다.
데이터 품질 및 신뢰
데이터 메시는 데이터를 생성하는 전문 분야 팀에 책임을 할당할 수 있습니다. 전문 분야 팀은 자체 데이터의 주요 소비자이기도 하므로 데이터 품질을 보장하려는 강력한 동기가 있습니다. 이를 통해 더욱 신뢰할 수 있는 데이터를 얻을 수 있습니다.
비용 효율성
데이터 메시는 회사의 비용 효율성을 높이는 데에도 도움이 될 수 있습니다. 중앙 집중식 데이터 플랫폼을 사용하는 경우 팀은 종종 데이터 요구사항을 위해 중앙 데이터팀의 도움을 기다려야 합니다. 이로 인해 지연과 리소스 낭비가 발생할 수 있습니다.
Dataplex Universal Catalog는 통합된 데이터 패브릭 역할을 하며 데이터 메시에 대한 중앙 거버넌스 레이어를 제공합니다. 다양한 환경에서 분산된 데이터를 검색, 관리, 제어하는 데 도움이 되므로 메타데이터와 정책에 대한 단일 정보 소스를 확보할 수 있습니다. 시작하려면 Dataplex 레이크를 만들어야 합니다. Dataplex 레이크는 데이터를 보관하는 최상위 컨테이너이며 일반적으로 비즈니스 도메인에 매핑됩니다.
레이크를 만드는 단계는 다음과 같습니다.
그러면 Dataplex가 이러한 애셋을 자동으로 스캔하여 메타데이터를 탐색하고 분류합니다.
'제품으로서의 데이터' 원칙의 핵심은 데이터를 쉽게 검색할 수 있도록 만드는 것입니다. BigQuery 데이터 공유를 사용하면 데이터 제품 Marketplace를 구축할 수 있습니다. 이를 통해 전문 분야 팀은 데이터를 복사하거나 이동하지 않고도 다른 팀과 데이터 제품을 안전하게 공유할 수 있습니다. 데이터 소비자가 필요한 데이터를 찾는 데 도움을 주고, 해당 데이터에 액세스할 수 있는 명확하고 잘 정의된 인터페이스를 제공합니다.
Google Cloud의 서버리스 서비스를 사용하면 전문 분야 팀이 최소한의 오버헤드로 자체 데이터 제품을 만들고 관리할 수 있습니다. BigQuery는 팀이 대규모 데이터 세트를 빠르고 효율적으로 분석할 수 있도록 지원하는 강력한 서버리스 데이터 웨어하우스입니다. Dataflow는 데이터 제품을 위한 데이터 파이프라인을 구축하고 자동화하는 데 사용할 수 있는 서버리스 데이터 처리 서비스입니다. 이러한 서비스를 통해 인프라를 관리하기 위한 중앙 데이터 엔지니어링팀의 필요성이 줄어들어 전문 분야 팀의 자율성과 민첩성이 향상됩니다.
통합 컴퓨팅 거버넌스는 중앙팀이 전역 규칙을 정의하지만, 전문 분야 팀이 이를 시행하도록 허용하는 원칙입니다. Google Cloud의 Identity and Access Management(IAM) 조건은 이를 구현하는 데 필요한 도구를 제공합니다. IAM 조건을 사용하면 데이터 속성을 기반으로 세분화된 권한을 설정할 수 있는 속성 기반 액세스 제어(ABAC)가 가능합니다. 예를 들어, 특정 리전의 고객 데이터에만 사용자가 액세스할 수 있도록 하는 정책을 만들어 GDPR과 같은 데이터 주권 규정을 준수하는 데 도움이 됩니다.