데이터 사용의 다양한 사용 사례를 지원하도록 데이터 메시를 설계하는 것이 좋습니다. 이 문서에서는 조직의 가장 일반적인 데이터 사용 사례를 설명합니다. 이 문서는 또한 데이터 사용자가 사용 사례에 적합한 데이터 제품을 결정할 때 고려해야 할 정보와 데이터 제품을 검색하고 사용하는 방법을 설명합니다. 이러한 요소를 이해하면 조직이 데이터 사용자를 지원하는 데 적합한 안내와 도구를 갖추는 데 도움이 됩니다.
이 문서는 Google Cloud에서 데이터 메시를 구현하는 방법을 설명하는 시리즈의 일부입니다. 여기에서는 사용자가 데이터 메시의 아키텍처 및 함수와 Google Cloud를 사용하여 최신 분산 데이터 메시 빌드에 설명된 개념을 읽고 이에 대해 잘 알고 있다고 가정합니다.
이 시리즈에 포함된 내용은 다음과 같습니다.
- 데이터 메시의 아키텍처 및 함수
- 데이터 메시에 대한 셀프 서비스 데이터 플랫폼 디자인
- 데이터 메시에서 데이터 제품 빌드
- 데이터 메시에서 데이터 제품 탐색 및 사용(이 문서)
데이터 사용 레이어의 설계, 특히 데이터 도메인 기반 사용자가 데이터 제품을 사용하는 방식은 데이터 사용자 요구사항에 따라 달라집니다. 기본 요건으로 사용자는 사용 사례를 염두에 두고 있다고 가정합니다. 여기서는 필요한 데이터를 식별했으며 이를 찾기 위해 중앙 데이터 제품 카탈로그를 검색할 수 있다고 가정합니다. 데이터가 카탈로그에 없거나 원하는 상태가 아닌 경우(예: 인터페이스가 적합하지 않거나 SLA가 충분하지 않은 경우) 사용자는 데이터 제작자에게 연락해야 합니다.
또는 사용자는 데이터 메시의 핵심 전략팀(COE)연락하여 해당 데이터 제품을 생성하는 데 가장 적합한 도메인에 대한 조언을 얻을 수 있습니다. 데이터 사용자는 요청 방법에 대해 문의할 수도 있습니다. 조직의 규모가 큰 경우 데이터 제품 요청을 셀프서비스 방식으로 처리하는 프로세스가 있어야 합니다.
데이터 사용자는 자신이 실행하는 애플리케이션을 통해 데이터 제품을 사용합니다. 필요한 통계 유형에 따라 데이터 사용 애플리케이션의 설계를 선택할 수 있습니다. 데이터 사용자는 애플리케이션 설계 개발 시 애플리케이션에서 선호하는 데이터 제품 사용도 식별합니다. 이러한 해당 데이터의 신뢰성과 안정성에 대한 필요한 확신을 가질 수 있습니다. 그러면 데이터 사용자가 애플리케이션에 필요한 데이터 제품 인터페이스 및 SLA에 대한 뷰를 설정할 수 있습니다.
데이터 사용 사례
데이터 사용자가 데이터 애플리케이션을 만드는 경우 소스는 하나 이상의 데이터 제품일 수 있으며, 데이터 사용자 자체 도메인의 데이터일 수도 있습니다. 데이터 메시에서 데이터 제품 빌드에 설명된 대로 다양한 물리적 데이터 저장소를 기반으로 하는 데이터 제품에서 분석 데이터 제품을 만들 수 있습니다.
데이터 사용이 동일한 도메인 내에서 발생할 수 있지만 가장 일반적인 사용 패턴은 도메인에 관계없이 애플리케이션의 소스로써 올바른 데이터 제품을 검색하는 패턴입니다. 올바른 데이터 제품이 다른 도메인에 있는 경우 사용 패턴에서 도메인 전반의 데이터에 액세스하고 사용하기 위한 후속 메커니즘을 설정해야 합니다. 사용 도메인 이외의 도메인에서 생성된 데이터 제품 사용은 데이터 사용 단계에서 설명합니다.
아키텍처
다음 다이어그램은 사용자가 승인된 데이터 세트 및 API를 비롯해 다양한 인터페이스를 통해 데이터 제품을 사용하는 시나리오 예시를 보여줍니다.
위 다이어그램과 같이 데이터 제작자는 4개의 데이터 제품 인터페이스, 즉 2개의 BigQuery 승인 데이터 세트, BigQuery Storage Read API에 의해 노출되는 BigQuery 데이터 세트와 Google Kubernetes Engine에서 호스팅되는 데이터 액세스 API를 노출했습니다. 데이터 사용자가 데이터 제품 사용 시 데이터 제품 내의 데이터 리소스를 쿼리하거나 직접 액세스하는 다양한 애플리케이션을 사용합니다. 이 시나리오에서 데이터 사용자는 특정 데이터 액세스 요구사항에 따라 두 가지 방법 중 하나로 데이터 리소스에 액세스합니다. 먼저 Looker는 BigQuery SQL을 사용하여 승인된 데이터 세트를 쿼리합니다. 두 번째 방법으로 Dataproc은 BigQuery API를 통해 데이터 세트에 직접 액세스한 다음 수집된 데이터를 처리하여 머신러닝(ML) 모델을 학습시킵니다.
데이터 사용 애플리케이션을 사용한다고 해서 항상 비즈니스 인텔리전스(BI) 보고서 또는 BI 대시보드가 발생하는 것은 아닙니다. 도메인의 데이터를 사용하면 분석 제품을 더 보강하거나 데이터 분석에 사용되거나 사기 행위 감지 등 운영 프로세스의 일부인 ML 모델이 생성될 수도 있습니다.
일반적인 데이터 제품 사용 사례는 다음과 같습니다.
- BI 보고 및 데이터 분석: 이 경우 데이터 애플리케이션은 여러 데이터 제품의 데이터를 사용하도록 빌드됩니다. 예를 들어 고객 관계 관리(CRM)팀의 데이터 사용자는 영업, 고객, 재무와 같은 여러 도메인의 데이터에 액세스해야 합니다. 이러한 데이터 사용자가 개발한 CRM 애플리케이션은 한 도메인의 BigQuery 승인 뷰를 쿼리하고 다른 도메인의 Cloud Storage Read API에서 데이터를 추출해야 할 수 있습니다. 데이터 사용자의 경우 선호하는 사용 인터페이스에 영향을 미치는 최적화 요인은 컴퓨팅 비용과 데이터 제품을 쿼리한 후 필요한 추가 데이터 처리입니다. BI 및 데이터 분석 사용 사례에서 BigQuery 승인 뷰가 가장 일반적으로 사용될 가능성이 높습니다.
- 데이터 과학 사용 사례 및 모델 학습: 이 경우 데이터 사용팀은 ML 모델과 같은 자체 분석 데이터 제품을 보강하기 위해 다른 도메인의 데이터 제품을 사용합니다. Google Cloud는 Spark를 위한 서버리스 Dataproc을 사용하여 ML 태스크를 실행하기 전에 데이터 사전 처리 및 특성 추출 기능을 제공하여 데이터 보강을 사용 설정합니다. 이때 핵심 고려사항은 합리적인 비용으로 충분한 양의 학습 데이터를 사용할 수 있는지, 그리고 학습 데이터가 적절한 데이터인지에 대한 신뢰도입니다. 비용을 줄이기 위해 선호하는 사용 인터페이스는 직접 읽기 API일 가능성이 높습니다. 데이터 사용팀이 ML 모델을 데이터 제품으로 빌드하면 해당 데이터 사용팀이 새로운 데이터 프로덕션팀이 될 수도 있습니다.
- 운영자 프로세스: 사용은 데이터 사용 도메인 내에서 운영 프로세스의 일부입니다. 예를 들어 사기를 처리하는 팀의 데이터 사용자는 판매자 도메인의 운영 데이터 소스에서 들어오는 트랜잭션 데이터를 사용할 수 있습니다. 변경 데이터 캡처와 같은 데이터 통합 방법을 사용하면 이 트랜잭션 데이터가 거의 실시간으로 가로채기됩니다. 그런 다음 Pub/Sub를 사용하여 이 데이터의 스키마를 정의하고 해당 정보를 이벤트로 노출할 수 있습니다. 이 경우 적절한 인터페이스는 Pub/Sub 주제로 노출되는 데이터입니다.
데이터 사용 단계
데이터 제작자는 데이터 사용 방법에 대한 안내를 비롯해 해당 데이터 제품을 중앙 카탈로그에 문서화합니다. 여러 도메인이 있는 조직의 경우 이 문서 접근 방식은 프로세서가 비즈니스 도메인의 경계 없이 출력을 생성하는 기존의 중앙 집중식 ELT/ETL 파이프라인과 다른 아키텍처를 만듭니다. 데이터 메시의 데이터 사용자는 데이터 사용 수명 주기를 만들기 위해 잘 설계된 탐색 및 사용 레이어를 갖추어야 합니다. 레이어에는 다음이 포함되어야 합니다.
1단계: 선언적 검색 및 데이터 제품 사양 탐색을 통한 데이터 제품 탐색: 데이터 사용자는 데이터 제작자가 중앙 카탈로그에 등록한 모든 데이터 제품을 자유롭게 검색할 수 있습니다. 모든 데이터 제품의 경우 데이터 제품 태그는 데이터 액세스 요청을 수행하는 방법과 필요한 데이터 제품 인터페이스에서 데이터를 사용하는 모드를 지정합니다. 데이터 제품 태그의 필드는 검색 애플리케이션을 사용하여 검색할 수 있습니다. 데이터 제품 인터페이스는 데이터 URI를 구현합니다. 즉, 사용자에게 제공하기위해 데이터를 별도의 사용 영역으로 이동할 필요가 없습니다. 실시간 데이터가 필요하지 않은 경우 사용자는 데이터 제품을 쿼리하고 생성된 결과로 보고서를 만듭니다.
2단계: 대화형 데이터 액세스 및 프로토타입 제작을 통한 데이터 탐색: 데이터 사용자는 BigQuery Studio 및 Jupyter 노트북과 같은 대화형 도구를 사용하여 데이터를 해석하고 실험하여 프로덕션 사용에 필요한 쿼리를 조정합니다. 대화형 쿼리를 사용하면 데이터 사용자가 새로운 차원의 데이터를 탐색하고 프로덕션 시나리오에서 생성된 통계의 정확성을 개선할 수 있습니다.
3단계: 애플리케이션을 통해 데이터 제품을 사용하고 프로그램 방식으로 액세스 및 프로덕션:
- BI 보고서. 일괄 및 실시간에 가까운 보고서 및 대시보드는 데이터 사용자가 요구하는 가장 일반적인 분석 사용 사례 그룹입니다. 보고서에는 의사 결정을 용이하게 하는 교차 데이터 제품 액세스가 필요할 수 있습니다. 예를 들어 고객 데이터 플랫폼에는 예정된 방식에 의거하여 주문 및 CRM 데이터 제품을 프로그래매틱 방식으로 쿼리해야 합니다. 이러한 접근 방식은 데이터를 사용하는 비즈니스 사용자에게 전체적인 고객 뷰를 제공합니다.
- 일괄 및 실시간 예측을 위한 AI/ML 모델 데이터 과학자는 일반적인 MLOps 원칙을 사용하여 데이터 제품팀이 제공하는 데이터 제품을 사용하는 ML 모델을 빌드하고 제공합니다. ML 모델은 사기 감지와 같은 트랜잭션 사용 사례를 위한 실시간 추론 기능을 제공합니다. 마찬가지로 탐색적 데이터 분석을 사용하면 데이터 사용자가 소스 데이터를 보강할 수 있습니다. 예를 들어 판매 및 마케팅 캠페인 데이터에 대한 탐색적 데이터 분석은 판매가 가장 높을 것으로 예상되어 캠페인을 실행해야 하는 인구통계 고객 세그먼트를 보여줍니다.
다음 단계
- 데이터 메시 아키텍처의 참조 구현 살펴보기
- BigQuery 자세히 알아보기
- Vertex AI 자세히 알아보기
- Dataproc의 데이터 과학에 대해 알아보기
- 클라우드 아키텍처 센터에서 참조 아키텍처, 다이어그램, 권장사항 자세히 살펴보기