데이터 계보는 데이터의 수명 주기를 보여주는 맵으로, 데이터의 출처, 시간 경과에 따른 이동 및 변환 방식, 현재 위치를 보여줍니다. 데이터를 이해, 추적, 검증하기 위한 명확한 감사 추적을 제공합니다.
이 포괄적인 뷰에는 소스 시스템, 적용된 모든 변환(계산, 집계, 필터 등), 보고서, 대시보드, 기타 애플리케이션과 같이 데이터가 사용되는 대상이 포함됩니다. 회사가 사용하는 모든 정보에 대한 상세한 가계도라고 생각하면 됩니다.
데이터 계보와 데이터 출처는 함께 사용되는 경우가 많지만 데이터 여정의 서로 다른 측면에 초점을 맞춥니다.
요약하자면 계보는 시간 경과에 따른 시스템 전반의 데이터 전체 진화를 보여주는 반면, 출처는 특정 데이터 요소의 소스와 진위 여부에 초점을 맞추는 경우가 많습니다.
데이터 계보 캡처는 과거에는 주로 수동으로 진행되는 까다로운 프로세스였지만, 최신 클라우드 솔루션은 이 프로세스를 고도로 자동화하는 데 도움이 됩니다. 핵심 개념은 인프라 전반에서 데이터가 이동하고 변경되는 방식을 관찰한 다음 추적 가능한 시각적 기록을 만드는 것입니다.
최신 데이터 플랫폼은 파싱 및 모니터링과 같은 기법을 사용하여 데이터 흐름을 자동으로 발견하고 매핑합니다.
여기서는 Data Lineage API가 핵심 기술입니다. 이를 통해 다양한 시스템과 도구가 데이터 사용량을 중앙 카탈로그에 보고할 수 있습니다. 예를 들어 데이터 통합 도구는 API를 사용하여 중앙 시스템에 '테이블 A에서 테이블 B로 데이터를 이동하고 집계를 수행했습니다.'라고 알릴 수 있습니다. 이를 통해 수동 개입 없이 데이터 이동에 대한 정확한 기록을 거의 실시간으로 생성할 수 있습니다.
자동 캡처가 이상적이지만 조직의 기존 시스템이나 커스텀 시스템의 모든 부분을 포괄하지 못할 수 있습니다. 이러한 경우 사용자는 수동 메타데이터 태그 지정이나 커스텀 보고에 의존할 수 있습니다. 여기에는 주제별 전문가가 데이터 흐름을 문서화하고 중앙 카탈로그 내에서 연결하는 작업이 포함됩니다. 효율성은 떨어지지만 엔드 투 엔드 뷰를 완성하기 위해 필요한 경우가 있습니다.
계보 정보가 캡처되면 시각화 도구(대개 웹 인터페이스)를 통해 사용자에게 제공됩니다. 이 도구는 복잡한 메타데이터를 가져와 읽기 쉬운 대화형 그래프나 다이어그램으로 변환합니다. 사용자는 보고서나 테이블을 클릭하여 모든 업스트림 소스와 다운스트림 소비자의 흐름도를 즉시 확인할 수 있으므로 맵에서 선을 따라가듯이 데이터의 여정을 간단하게 이해할 수 있습니다.
훌륭한 데이터 계보 맵은 모든 데이터 애셋에 대한 '누가, 무엇을, 언제, 어디서, 왜' 질문에 빠르게 답하는 데 도움이 될 수 있습니다. 추적되는 필수 구성요소는 다음과 같습니다.
데이터 계보는 단순한 기술적 연습이 아니라 조직이 데이터를 관리하고 신뢰하는 방식을 개선하여 실질적인 비즈니스 가치를 창출하는 데 도움이 될 수 있습니다.
데이터 거버넌스 및 규정 준수 개선
데이터 계보는 조직이 민감한 보고서를 작성하는 데 사용된 데이터 소스를 정확히 증명하는 데 도움이 되며, 이는 GDPR, CCPA 또는 HIPAA와 같은 규정 준수를 위해 종종 필요합니다.
데이터 품질 문제에 대한 근본 원인 분석 속도 향상
계보를 사용하면 기술팀이 여러 변환과 시스템을 거쳐 오류가 발생한 정확한 소스까지 결함이 있는 데이터 포인트를 빠르게 역추적할 수 있습니다.
시스템 변경에 대한 영향 분석 강화
데이터 계보는 즉각적인 영향 분석을 제공합니다. 제안된 변경사항을 추적하여 팀은 해당 데이터에 의존하는 모든 보고서, 대시보드 또는 애플리케이션을 확인할 수 있으며, 이를 통해 변경사항으로 인해 문제가 발생하기 전에 위험을 평가하고 데이터 소비자에게 알릴 수 있습니다.
데이터 애셋에 대한 신뢰도 증가
사용자가 사용 중인 데이터의 출처와 변환 단계를 쉽게 확인할 수 있으면 해당 데이터에 대한 신뢰도가 크게 높아집니다. 사람들이 기본 정보의 품질이나 신뢰성에 의문을 제기하지 않기 때문에 데이터에 기반한 의사결정을 더 많이 내릴 수 있습니다.
데이터-AI 계보
데이터 계보는 AI 모델의 근본 원인 분석에도 도움이 될 수 있습니다. 배포된 모델이 드리프트(성능 저하)를 보이거나 편향된 예측을 생성하기 시작하면 계보를 통해 데이터 과학자가 소스를 빠르게 추적할 수 있습니다.
데이터 계보는 필요에 따라 데이터 개발 수명 주기의 다양한 단계와 다양한 세부 수준에서 추적할 수 있습니다.
설계 시간 계보는 개발 및 테스트 환경에서 설계 및 구성되는 데이터 흐름을 캡처합니다. 스키마, 스크립트, ETL 작업 구성과 같은 데이터 파이프라인의 청사진을 읽는 것을 기반으로 합니다. 데이터에 어떤 작업이 수행되어야 하는지 알려줍니다.
런타임 계보는 프로덕션 환경에서 실제로 발생하는 데이터 흐름을 캡처합니다. 실행된 작업과 프로세스의 구체적인 입력과 출력을 기록합니다. 예상치 못한 동작이나 오류를 포함하여 데이터에 어떤 일이 일어났는지 알려줍니다. 데이터 거버넌스의 경우 런타임 계보가 현실을 반영하므로 더 가치 있는 것으로 간주되는 경우가 많습니다.
캡처되는 세부정보 수준을 세분성이라고 합니다. 조직은 데이터 거버넌스 요구사항과 환경의 기술적 복잡성에 따라 세분성 수준을 선택합니다.