Deutsche Bank가 Google Cloud에 새로운 소매 데이터 플랫폼을 구축한 방법
Vladimir Elvov
Lead Customer Engineer, Data & Analytics
Lars Fockele
Lead Data Engineer, Deutsche Bank AG
* 본 아티클의 원문은 2024년 11월 13일 Google Cloud 블로그(영문)에 게재되었습니다.
고객의 선호와 니즈에 대한 인사이트는 현대 비즈니스, 특히 소매 은행에 있어 매우 중요합니다. 고객 데이터에서 얻은 인사이트는 맞춤형 제품, 더 나은 서비스, 더 높은 수준의 자동화를 통해 고객 경험을 개선하는 데 도움이 됩니다. 하지만 이러한 고객 인사이트를 얻기 위해서는 입력 데이터를 하나의 공통 데이터 플랫폼에 통합해야 합니다. 동시에 데이터양이 계속해서 증가하고 새로운 실시간 입력 소스가 끊임없이 등장하는 상황에서 이러한 니즈를 충족하려면 확장 가능한 솔루션을 선택해야 합니다.
개인, 상업, 기업 부문에서 2,000만이 넘는 파트너와 고객 데이터를 보유한 Deutsche Bank는 Google Cloud에 프라이빗 뱅크 데이터 플랫폼(PBDP, Private Bank Data Platform)이라는 데이터 플랫폼을 구축하기로 했습니다. 이는 Deutsche Bank의 IT 역량에 혁신을 일으켰습니다.
“Google과의 협업을 통해 종합형 중앙집중식 단일 데이터 플랫폼을 구축했습니다. 이 플랫폼은 Deutsche Bank에 유연한 데이터 모델링 옵션, 탐색/프로토타입 제작/분석을 위한 분석 업무 공간(analytical workplace), 실시간 이벤트 및 일일 일괄 처리를 활용하여 Google Cloud로 간편하게 데이터를 수집하는 기능을 제공합니다. 새로운 데이터 플랫폼은 현대적인 클라우드 기반 기술 스택을 사용하여 데이터를 통합하려는 Deutsche Bank의 전략적 접근 방식의 초석이자 다양한 이니셔티브를 가능하게 하는 핵심 요소입니다. 데이터 사용 주체의 니즈를 충족하기 위한 모든 관련 데이터를 한곳에서 찾을 수 있게 되어 앞으로 다양한 데이터 기반 운영 및 분석 사용 사례에 도움이 될 것입니다.” - Jan Struewing, Deutsche Bank 도메인 리드 PBDP 부문 책임자
이 블로그에서 Google Cloud에 데이터 플랫폼을 구축하고자 하는 조직을 위한 아이디어를 확인할 수 있습니다. Deutsche Bank PBDP를 자세히 살펴보며 이 플랫폼의 요구사항, 아키텍처, 실행 서비스, 관리 및 운영을 위한 Deutsche Bank의 접근 방식을 확인해 보세요.
현대적 데이터 플랫폼의 기능
Deutsche Bank PBDP는 철저한 관리와 사용하기 쉬운 방식에 따라 중앙에서 지속적으로 데이터를 프로비저닝하는 계층을 기반으로 구축되었습니다. PBDP의 이 계층을 '데이터 코어(Data Core)'라고 부릅니다. 데이터는 다양한 시스템에서 서로 다른 속도로 들어옵니다. 따라서 PBDP는 데이터 생산자로부터 파일과 이벤트를 모두 수집할 수 있어야 합니다. 그렇게 하기 위해 데이터는 일괄 처리 및 실시간 수집 메커니즘을 사용하여 최종적으로 BigQuery에 전달됩니다. 이벤트 데이터인 경우 실시간 사용을 위해 Pub/Sub에 전달됩니다. 데이터 액세스는 사용 주체의 권리 및 권한에 따라 관리되며, CDO 데이터 저장 위치 및 액세스팀(CDO Residency and Access team)의 검토를 통해 관련 규정과 정책을 준수하도록 보장합니다. 그 외에도 PBDP는 데이터에 더하여 메타데이터를 제공하여 사용 주체가 데이터를 간단히 검색하고 액세스할 수 있도록 합니다.
데이터 코어는 PBDP의 초석으로 간단하고 중앙화된 데이터 검색을 가능하게 합니다. 즉, 데이터 사용 주체가 병렬 파이프라인을 통해 동일한 데이터를 여러 차례 소싱할 필요 없이 중앙 데이터 스토어를 활용할 수 있습니다. 이를 통해 데이터 품질과 안정성을 개선하고, 생산자와 사용 주체 간 개별 솔루션 연결보다 데이터 공유에 대한 비용 효율을 크게 높일 수 있습니다. 또한 사용 주체 온보딩을 위한 중앙화 및 표준화된 프로세스를 통해 맞춤형 프로세스나 개별 솔루션 간 통합보다 조직 관점에서 훨씬 더 빠르게 데이터에 액세스할 수 있게 됩니다.
PBDP 데이터는 BigQuery에서 두 가지 방식으로 사용할 수 있습니다. 하나는 소스 시스템에서 제공된 데이터를 있는 그대로 '원시' 형식으로 사용하는 것이고, 다른 하나는 데이터 모델을 통해 사용하는 것입니다. 이 데이터 모델은 데이터 볼트(Data Vault) 2.0 패러다임을 기반으로 하기 때문에 업무 볼트(Business Vault) 계층의 데이터가 소스 시스템의 데이터 모델에 구애받지 않는 동일한 데이터 모델을 따릅니다.
PBDP에는 두 가지 유형의 사용 주체가 있습니다. 하나는 데이터 기반 제품(data-driven products)이고, 다른 하나는 분석 업무 공간입니다.
-
데이터 기반 제품이란 기본적으로 처리하는 데이터를 기반으로 사용자에게 제공할 인사이트 관련 비즈니스 로직을 포함하는 애플리케이션입니다. 이 제품은 은행 내 특정 팀이 관리하며 PBDP의 데이터 코어에서 입력 데이터를 소싱하고 특정 데이터 변환은 자체적으로 처리합니다. 입력 데이터는 BigQuery에서 가져오거나 실시간 데이터 처리를 위해 Pub/Sub에서 바로 가져오기도 합니다. 이러한 변환을 구현하기 위해 데이터 기반 제품은 PBDP의 즉시 사용 가능한 도구와 템플릿을 활용할 수 있습니다.
-
분석 업무 공간을 사용하면 PBDP 데이터 코어의 데이터를 인터랙티브한 방식으로 탐색 및 분석할 수 있습니다. 이를 통해 새로운 인사이트의 도출과 새로운 알고리즘의 개발이 가능합니다. 이러한 업무 공간은 주로 Vertex AI 노트북과 같은 PBDP의 표준화된 솔루션을 활용하는 데이터 과학자와 분석가가 사용합니다. 분석 업무 공간에서 수행된 업무의 결과물인 아티팩트는 최종적으로 새로운 데이터 기반 제품의 형태로 프로덕션화될 수 있습니다.
PBDP 아키텍처 개요
다음 다이어그램은 Deutsche Bank PBDP의 아키텍처를 개략적으로 나타냅니다. Deutsche Bank 네트워크 내의 온프레미스 자산과 Google Cloud 내에서 실행되는 PBDP 간의 인터페이스에 초점을 맞춘 이 아키텍처를 통해 Deutsche Bank는 Postbank-Deutsche Bank 마이그레이션 과정 중에 수십억 개의 레코드를 초기 로드하고, 사용자를 위해 하루에 수백만 개의 레코드를 처리할 수 있었습니다.
프라이빗 뱅크를 위한 중앙 데이터 허브
PBDP의 입력 데이터 소스는 매우 광범위하며, Google Cloud의 클라우드 네이티브 서비스를 사용하여 구축된 새로운 온라인 뱅킹 플랫폼과 같은 데이터 기반 제품에 필요한 주요 정보를 포함하고 있습니다. 온라인 뱅킹 플랫폼의 데이터에는 핵심 고객 정보, 당좌 예금 데이터(거래 계좌), 신용카드 데이터, 저축 계좌 데이터, 파트너 데이터, 대출 데이터, 증권/중개 계좌 데이터가 포함됩니다. 이러한 데이터는 SAP, 메인프레임, 관계형 데이터베이스, 기타 레코드 시스템에서 소싱됩니다.
PBDP는 프라이빗 뱅크를 위한 중앙 데이터 플랫폼 역할 외에, 은행의 핵심 뱅킹을 위한 온프렘 시스템과 새로운 온라인 뱅킹 플랫폼 간 주요 통합 계층의 역할도 합니다. 이는 온프렘 자산에서 클라우드로 마이그레이션할 때 모든 애플리케이션을 한 번에 이동할 수 없다는 점에서 중요합니다. 온프렘과 클라우드 기반 시스템 간의 통합 계층 또는 미들웨어 기능은 단계적 접근 방식을 통해 마이그레이션 과정의 리스크를 줄이고 온프렘과 클라우드 기반 시스템을 확장 가능한 방식으로 통합하기 때문에 매우 중요합니다.
온라인 뱅킹 플랫폼 외 PBDP의 다른 사용 주체로는 계좌 보고서, 고객 매출 데이터 웨어하우스, 재무 보고서, 독일의 상업 고객을 위한 분석 도구 등이 있으며 새로운 사용 주체가 지속적으로 온보딩되고 있습니다.
주요 로드맵 활동
PBDP는 개선할 수 있는 몇 가지 부분이 있습니다. 예를 들어 스테이징 영역/수준을 도입하면 추가적인 유지보수 또는 데이터 관리 작업의 수행 가능성을 높일 수 있습니다. 데이터를 최종 테이블에 작성하고 사용 주체에 제공하기 전에 데이터 행에 행 수준의 보안 태그를 추가하여 개선할 수도 있습니다. 팀은 엔터프라이즈 아키텍처 데이터 원칙 및 데이터 표준(Enterprise Architecture Data Principles and Data Standards)과 연결된 상세한 구현 패턴을 개발하고, 엔터프라이즈 데이터 기능의 활용을 확장하여 Deutsche Bank 그룹 차원의 데이터 전략에 맞게 조정하고 있습니다. 여기에는 다음과 같이 작업 중인 패키지에 대한 추가적인 조정이 포함됩니다.
-
그룹 전체의 단일 데이터 레지스트리 사용
-
데이터 인터페이스(경로) 용으로 조정된 데이터 표준, 공통된 데이터 모델링 기법, 데이터 조화
-
데이터 사용을 더욱 간소화하기 위해 데이터 제품 및 데이터 메시 개념과의 정렬 강화
DevOps 업무 방식 수용
현대적인 데이터 플랫폼은 개발과 운영에 있어 현대적인 접근 방식이 필요합니다. 개발팀은 데이터 플랫폼을 위해 DevOps 원칙을 도입했을 뿐만 아니라, 자동화를 활용하여 인프라 프로비저닝과 CI/CD 프로세스를 간소화했습니다.
또한 Terraform을 사용하여 다양한 환경(개발, 테스트, 프로덕션) 전반에서 Google Cloud 인프라를 관리합니다. Terraform은 인프라를 코드로 정의할 수 있게 하여 일관성을 보장하고 수동 오류 리스크를 줄여줍니다. 개발자는 가상 머신, 네트워크 구성, 스토리지 리소스, 보안 구성 등 데이터 플랫폼 인프라의 프로비저닝 및 관리 작업을 자동화했습니다.
팀은 Terraform 스크립트를 GitHub에 저장하여 인프라의 버전을 제어하고 변경사항을 쉽게 추적합니다. 이를 통해 필요한 경우 변경사항을 롤백하고, 다양한 환경에서 일관된 상태를 유지할 수 있습니다. 동시에 일련의 GitHub Actions 워크플로가 일반적인 CI/CD 단계를 수행합니다. 인프라 프로비저닝과 CI/CD 프로세스를 자동화함으로써 팀은 수동 작업을 줄이고, 일관성을 개선하고, 전달 속도를 높이고, 안정성을 강화하는 등 수많은 이점을 얻게 되었습니다.
마지막으로 Deutsche Bank는 Google Cloud의 자체적인 모니터링 서비스를 통해 데이터 플랫폼의 중요한 운영 사항을 모니터링합니다. 시스템 오작동이 발생하면 알림이 트리거되어 자동으로 지원 이메일을 발송하고 전담 팀에 채팅으로 알립니다. 이를 통해 개발자는 단일 DevOps 팀으로서 완전한 PBDP를 구축, 배포, 운영할 수 있습니다.
이러한 기능과 아키텍처 패턴을 기반으로 Deutsche Bank의 PBDP는 더욱 확장하고 더 많은 분석 사용 사례를 원활하게 온보딩할 수 있으며, 이는 많은 조직이 혜택을 누릴 수 있는 부분입니다. 시작하는 방법에 대해 자세히 알고 싶다면 Google Cloud팀에 문의해 주세요.