공식적인 계획 없이 운영하는 것은 지도 없이 도시를 건설하는 것과 같습니다. 시간이 지나면 '데이터 늪'이 생겨나게 됩니다. 데이터 늪은 아무도 찾거나 신뢰하거나 사용할 수 없는 원시 데이터로 가득 찬 대규모 스토리지 영역입니다. 설계 없이 데이터를 저장하면 엔지니어링팀은 새로운 기능을 빌드하거나 AI 모델을 학습시키는 것보다 정보를 찾는 데 더 많은 시간을 소비하게 됩니다.
또한 좋은 아키텍처는 IT와 비즈니스 리더 간의 번역기 역할을 합니다. 리더가 '고객 트렌드를 실시간으로 파악해야 한다'고 말하면 아키텍처는 이 목표를 기술적 현실로 전환합니다. 엔지니어에게 BigQuery와 같은 도구에 스트리밍 파이프라인을 빌드하라고 알려줄 수 있습니다. 이러한 협업을 통해 기술에 지출되는 모든 비용이 실제로 회사의 성장에 도움이 되도록 할 수 있습니다.
최신 데이터 아키텍처는 데이터가 생성, 이동, 저장, 정제, 사용되는 수명 주기를 따릅니다. 이러한 수명 주기의 작동 방식을 이해하려면 데이터가 다양한 시스템을 거치는 경로를 확인하는 것이 도움이 됩니다.
이 시스템의 기술적 구성요소는 개발자가 빌드하는 모든 것의 기반이 됩니다. 각 부분은 특정 작업을 수행합니다.
모든 것은 데이터가 생성되는 곳에서 시작됩니다. 고객용 앱, 공장 현장의 센서(IoT), 서드 파티 API 등이 이에 해당할 수 있습니다. 이러한 소스는 이름, 날짜와 같은 정형 데이터와 채팅 로그와 같은 비정형 데이터를 다양한 속도로 전송합니다.
일상적인 앱 데이터를 저장하는 특수 도구입니다. 개발자는 은행 거래와 같은 작업에는 관계형 데이터베이스를 사용하고 사용자 프로필과 같은 작업에는 비관계형(NoSQL) 데이터베이스를 사용합니다. 결국에는 더 큰 프로젝트나 ML 학습에 사용할 수 있도록 이러한 '운영' 거처에서 데이터를 가져와야 합니다.
데이터 레이크는 원시 데이터를 위한 대규모의 확장 가능한 스토리지 영역입니다. 데이터의 형식을 먼저 지정할 필요 없이 빠르게 '랜딩'할 수 있습니다. 모든 팀이 동일한 원시 정보에 액세스하여 각자의 특정 요구사항에 맞게 사용할 수 있으므로 사일로가 해체됩니다.
이곳에서 데이터는 중요한 작업을 위해 정리됩니다. 최신 데이터 웨어하우스와 '마트'는 빠른 쿼리와 실시간 알림을 위한 구조화된 공간을 제공합니다. 정리되지 않은 복잡한 파일로 인해 속도가 느려지지 않고 대규모 보고서를 실행할 수 있습니다.
AI가 작동하려면 최신 데이터가 꾸준히 공급되어야 합니다. 데이터 과학자는 아키텍처를 사용하여 모델 학습을 위한 데이터를 찾습니다. 그런 다음 시스템은 모델이 실제 환경에서 정확성을 유지할 수 있도록 새로운 정보를 계속해서 제공해야 합니다.
데이터 거버넌스에는 데이터를 정리하고 합법적으로 유지하는 규칙과 도구가 포함됩니다. 필요한 것을 찾을 수 있도록 중앙 카탈로그를 사용하는 경우가 많습니다. 또한 역할도 설정하므로 적절한 사람만 민감한 정보를 볼 수 있어 회사가 개인 정보 보호법을 준수할 수 있습니다.
대부분의 조직은 데이터 흐름을 구성하는 세 가지 주요 방법 중에서 선택합니다.
전통적인 방식입니다. 회사 전체의 모든 데이터가 하나의 크고 통합된 웨어하우스 또는 레이크로 들어갑니다. '단일 정보 소스'를 유지하고 하나의 규칙 집합을 쉽게 설정할 수 있다는 장점이 있습니다. 하지만 병목 현상을 일으킬 수 있습니다. 모든 팀이 하나의 중앙 IT 그룹이 데이터를 이동할 때까지 기다려야 한다면 회사가 성장함에 따라 속도가 느려집니다.
이 최신 모델에서는 마케팅이나 재무와 같은 다양한 비즈니스팀이 자체 데이터를 소유하고 관리합니다. 이러한 팀은 공유된 규칙과 도구로 연결되어 있습니다. 이 모델은 종종 데이터 메시 또는 데이터 패브릭이라고 불리며, 팀이 중앙 부서의 도움을 기다릴 필요가 없기 때문에 더 빠르게 움직일 수 있습니다.
데이터 레이크하우스는 데이터 레이크의 저렴하고 유연한 스토리지와 데이터 웨어하우스의 고성능 관리 및 트랜잭션을 결합한 최신 아키텍처입니다. 이를 통해 기업은 기본 보고부터 고급 머신러닝에 이르기까지 모든 작업을 단일 통합 플랫폼에서 직접 실행하여 공급업체 종속을 피할 수 있습니다.
도구로 시작하지 말고 '왜'로 시작하세요. 비즈니스가 달성해야 하는 목표를 파악합니다. 실시간으로 신용카드 사기를 감지해야 할 수도 있고, 생성형 AI 챗봇을 빌드하고 싶을 수도 있습니다. 목표를 알면 어떤 종류의 아키텍처가 필요한지 알 수 있습니다.
이미 보유하고 있는 콘텐츠를 살펴보세요. 오래된 '레거시' 시스템, 데이터 사일로, 데이터가 갇혀 있는 위치를 확인합니다. 이 감사를 통해 유지할 항목과 클라우드로 이전해야 할 항목을 결정할 수 있습니다.
기술을 구매하기 전에 규칙을 설정하세요. 누가 데이터를 소유하고 어떻게 데이터를 정리할 것인지 결정하세요. 규정 준수를 기반에 통합하면 나중에 보안 허점을 수정하기 위해 서두를 필요가 없습니다.
이제 스택을 선택합니다. 데이터 이동, 저장, 변환을 위해 함께 잘 작동하는 도구를 선택하세요. Lakehouse 또는 메시와 같이 선택한 패턴을 지원하고 향후 AI 계획을 처리할 수 있는지 확인하세요.
의사결정 개선
데이터를 쉽게 찾고 신뢰할 수 있다면 리더는 추측할 필요가 없습니다. 실시간 보고서와 예측 트렌드를 살펴보고 전략을 세울 수 있습니다. '이 방법이 효과가 있을 것 같습니다'가 '이 방법이 효과가 있습니다'로 바뀝니다.
운영 효율성 및 비용 절감
좋은 아키텍처를 사용하면 동일한 데이터를 세 곳에 저장하는 데 드는 비용을 절감할 수 있습니다. 또한 데이터 이동의 지루한 부분을 자동화합니다. 이를 통해 클라우드 비용을 절감하고 엔지니어가 손상된 파이프라인을 수정하는 대신 멋진 새로운 기능을 빌드하는 데 집중할 수 있습니다.
AI 및 머신러닝 준비 상태
양질의 데이터가 없으면 양질의 AI를 만들 수 없습니다. 강력한 아키텍처는 모델이 학습하는 데 필요한 정리되고 관리되는 깨끗한 데이터를 제공합니다. 이를 통해 생성형 AI가 유용하고 정확한 답변을 제공할 수 있는 적절한 컨텍스트를 확보할 수 있습니다.
최신 데이터 아키텍처를 빌드하려면 원활하게 함께 작동하는 모듈식 도구 스택이 필요합니다. 데이터 환경을 빌드, 관리, 보호하는 데 사용되는 핵심 Google Cloud 제품은 다음과 같습니다.






