데이터 메시에서 셀프 서비스 데이터 플랫폼은 사용자가 데이터 제품을 자율적으로 빌드, 공유, 사용할 수 있도록 지원함으로써 사용자가 데이터로부터 가치를 생성할 수 있게 해줍니다. 이러한 이점을 완전히 실현하기 위해서는 셀프 서비스 데이터 플랫폼이 이 문서에 설명된 기능을 제공하도록 하는 것이 좋습니다.
이 문서는 Google Cloud에서 데이터 메시를 구현하는 방법을 설명하는 시리즈의 일부입니다. 여기에서는 사용자가 Google Cloud를 사용하여 최신 분산 데이터 메시 빌드 및 데이터 메시의 아키텍처 및 기능에 설명된 개념을 읽고 이에 익숙하다고 가정합니다.
이 시리즈에 포함된 내용은 다음과 같습니다.
- 데이터 메시의 아키텍처 및 기능
- 데이터 메시에 대한 셀프 서비스 데이터 플랫폼 디자인(이 문서)
- 데이터 메시에서 데이터 제품 빌드
- 데이터 메시에서 데이터 제품 탐색 및 사용
이 문서에 설명된 대로 데이터 플랫폼팀은 일반적으로 중앙의 셀프 서비스 데이터 플랫폼을 만듭니다. 이 팀은 도메인 팀(데이터 생산자겸 데이터 소비자)이 데이터 제품을 만들고 소비하기 위해 사용할 수 있는 솔루션 및 구성요소를 빌드합니다. 도메인 팀은 데이터 메시의 기능 부분을 나타냅니다. 데이터 플랫폼팀은 이러한 구성요소를 빌드하여 매끄러운 개발 경험을 지원하고 안전하고 상호 운용 가능한 데이터 제품을 빌드, 배포, 유지보수하는 복잡성을 줄여줍니다.
궁극적으로 데이터 플랫폼팀은 도메인 팀이 더 빠르게 움직일 수 있도록 해야 합니다. 데이터 플랫폼팀은 니즈를 해결하는 제한된 도구 집합을 제공하여 도메인 팀의 효율성을 높여줍니다. 데이터 플랫폼팀은 이러한 도구를 제공함으로써 도메인 팀이 이러한 도구를 직접 빌드하고 소싱해야 하는 부담을 없애줍니다. 도구 선택 옵션은 여러 니즈에 맞게 맞춤설정 가능해야 하며 데이터 도메인팀에 유연하지 않은 작업 방식을 강요하지 않아야 합니다.
데이터 플랫폼 팀은 데이터 파이프라인 조정자 또는 지속적 통합 및 지속적 배포(CI/CD) 시스템에 대한 커스텀 솔루션을 빌드하는 데 집중하지 않아야 합니다. CI/CD 시스템과 같은 솔루션은 Cloud Build와 같은 관리형 클라우드 서비스로 즉시 사용할 수 있습니다. 관리형 클라우드 서비스를 사용하면 데이터 플랫폼팀의 운영 부담을 줄일 수 있고 플랫폼 사용자로서 데이터 도메인팀의 특정 니즈에 집중할 수 있게 해줍니다. 운영 부담이 감소하면 데이터 플랫폼팀이 데이터 도메인팀의 특정 니즈를 해결하는 데 더 많은 시간을 집중할 수 있습니다.
아키텍처
다음 다이어그램은 셀프 서비스 데이터 플랫폼의 아키텍처 구성요소를 보여줍니다. 또한 이 다이어그램은 데이터 메시 간에 데이터 제품을 개발하고 소비할 때 이러한 구성요가 팀을 지원하는 방법을 보여줍니다.
앞의 다이어그램에 표시된 것처럼 셀프 서비스 데이터 플랫폼은 다음을 제공합니다.
플랫폼 솔루션: 이러한 솔루션은 사용자가 특정 요구사항을 충족하기 위해 여러 다른 조합으로 선택하고 어셈블하는 Google Cloud 프로젝트 및 리소스를 프로비저닝하기 위한 구성 가능한 구성요소로 구성됩니다. 구성요소와 직접 상호작용하는 대신 플랫폼 사용자는 특정 목적을 달성하기 위해 플랫폼 솔루션과 상호작용할 수 있습니다. 데이터 도메인팀은 데이터 제품 개발 및 소비를 느리게 만드는 일반적인 문제 지점 및 마찰 영역을 해결할 수 있도록 플랫폼 솔루션을 디자인해야 합니다. 예를 들어 데이터 메시에 온보딩되는 데이터 도메인팀은 코드형 인프라(IaC) 템플릿을 사용할 수 있습니다. IaC 템플릿을 사용하면 표준 Identity and Access Management(IAM) 권한, 네트워킹, 보안 정책, 데이터 제품 개발을 위해 사용 설정된 관련 Google Cloud API를 사용하여 Google Cloud 프로젝트 집합을 빠르게 만들 수 있습니다. 각 솔루션에 '시작 방법' 가이드 및 코드 샘플과 같은 문서를 포함하는 것이 좋습니다. 데이터 플랫폼 솔루션 및 해당 구성요소는 기본적으로 안전하고 호환되어야 합니다.
일반 서비스: 이러한 서비스는 데이터 제품 검색 가능 여부, 관리, 공유, 관측 가능성을 제공합니다. 이러한 서비스는 데이터 제품에서 데이터 소비자의 신뢰를 활용하며, 데이터 생산자가 데이터 제품 관련 문제에 대해 데이터 소비자에게 알림을 제공하기 위한 효율적인 방법입니다.
데이터 플랫폼 솔루션 및 일반 서비스에는 다음이 포함될 수 있습니다.
- 다음을 포함하여 기본적인 데이터 제품 개발 작업공간 환경을 설정하기 위한 IaC 템플릿:
- IAM
- 로그 기록 및 모니터링
- 네트워킹
- 보안 및 규정 준수 가드레일
- 결제 기여 분석을 위한 리소스 태그 지정
- 데이터 제품 스토리지, 변환 및 게시
- 데이터 제품 등록, 카탈로그 작성 및 메타데이터 태그 지정
- 기존 데이터 제품 개발 작업공간에 Google Cloud 리소스를 배포하는 데 사용할 수 있는 조직적 보안 가드레일 및 권장사항을 따르는 IaC 템플릿
- 새 프로젝트를 부트스트래핑하는 데 사용하거나 기존 프로젝트의 참조로 사용될 수 있는 애플리케이션 및 데이터 파이프라인 템플릿. 이러한 템플릿의 예시에는 다음이 포함됩니다.
- 일반 라이브러리 및 프레임워크 사용
- 플랫폼, 로깅, 모니터링, 관측 가능성 도구와 통합
- 빌드 및 테스트 도구
- 구성 관리
- 배포용 패키징 및 CI/CD 파이프라인
- 사용자 인증 정보의 인증, 배포, 관리
- 다음이 포함될 수 있는 데이터 제품 관측 가능성 및 거버넌스를 제공하는 일반 서비스:
- 데이터 제품의 전체 상태를 보여주는 업타임 체크
- 데이터 제품에 대한 유용한 지표를 제공하는 커스텀 측정항목
- 데이터 소비자팀에 대한 사용 중인 데이터 제품의 변경사항 알림 제공과 같은 중앙팀의 운영 지원
- 데이터 제품의 성능을 보여주는 제품 스코어카드
- 데이터 제품 탐색을 위한 메타데이터 카탈로그
- 데이터 메시 간에 전역으로 적용할 수 있는 중앙에서 정의된 컴퓨팅 정책 집합
- 도메인팀 간에 데이터 공유를 지원하는 데이터 마켓플레이스
IaC 템플릿을 사용하여 플랫폼 구성요소 및 솔루션 만들기에서는 데이터 제품 노출 및 배포를 위한 IaC 템플릿의 이점에 대해 설명합니다. 일반 서비스 제공에서는 데이터 플랫폼팀에서 빌드되었고 관리되는 일반 인프라 구성요소를 도메인팀에 제공하는 것이 유용한 이유를 설명합니다.
IaC 템플릿을 사용하여 플랫폼 구성요소 및 솔루션 만들기
데이터 플랫폼팀의 목적은 데이터로부터 더 많은 가치를 얻기 위해 셀프 서비스 데이터 플랫폼을 설정하는 것입니다. 이러한 플랫폼을 빌드하기 위해 데이터 플랫폼팀은 도메인팀에 검증되고, 안전하고, 셀프 서비스가 가능한 인프라 템플릿을 제공합니다. 도메인팀은 이러한 템플릿을 사용하여 자신의 데이터 개발 및 데이터 소비 환경을 배포합니다. IaC 템플릿은 데이터 플랫폼팀이 이 목적을 달성하고 확장을 지원하도록 도와줍니다. 검증되고 신뢰할 수 있는 IaC 템플릿을 사용하면 기존 CI/CD 파이프라인을 재사용할 수 있도록 허용함으로써 도메인팀의 리소스 배포 프로세스를 단순화합니다. 이 접근 방법을 통해 도메인팀이 빠르게 시작하고 데이터 메시 내에서 생산성을 높일 수 있습니다.
IaC 템플릿은 IaC 도구를 사용하여 만들 수 있습니다. Cloud Config Connector, Pulumi, Chef, Ansible과 같은 여러 IaC 도구가 있지만 이 문서에서는 Terraform 기반 IaC 도구에 대한 예시를 제공합니다. Terraform은 데이터 플랫폼팀이 Google Cloud 리소스에 대해 구성 가능한 플랫폼 구성요소 및 솔루션을 효율적으로 만들 수 있게 해주는 오픈소스 IaC 도구입니다. 데이터 플랫폼팀은 Terraform을 사용하여 원하는 종료 상태를 지정하고 도구로 해당 상태를 달성하는 방법을 확인할 수 있게 해주는 코드를 작성합니다. 이러한 선언적 접근 방법을 통해 데이터 플랫폼팀은 환경간 배포를 위해 인프라 리소스를 변경 불가능한 아티팩트로 취급할 수 있습니다. 또한 배포된 리소스와 소스 제어에서 선언된 코드 사이에 발생하는 불일치 위험을 줄이는 데 도움이 됩니다(구성 드리프트 참조). 인프라에 대한 임시 및 수동 변경사항으로 인해 발생하는 구성 드리프트는 IaC 구성요소를 프로덕션 환경에 안전하고 반복 가능한 방법으로 배포하는 것을 방해합니다.
구성 가능한 플랫폼 구성요소에 대한 일반 IaC 템플릿에는 BigQuery 데이터 세트, Cloud Storage 버킷, Cloud SQL 데이터베이스와 같은 리소스 배포를 위한 Terraform 모듈 사용이 포함됩니다. Terraform 모듈은 구성 가능한 모듈을 사용하여 배포된 관련 리소스를 포함하여 전체 Google Cloud 프로젝트를 배포하기 위해 엔드 투 엔드 솔루션에 조합할 수 있습니다. 예시 Terraform 모듈은 Google Cloud용 Terraform 청사진에서 찾을 수 있습니다.
각 Terraform 모듈은 기본적으로 보안 가드레일 및 조직에 사용되는 규정 준수 정책을 충족해야 합니다. 이러한 가드레일 및 정책은 또한 코드로 표현될 수 있으며, Google Cloud 정책 검증 도구와 같은 자동화된 규정 준수 확인 도구를 사용하여 자동화될 수 있습니다.
조직은 변경사항을 프로덕션에 승격하기 위해 사용되는 동일한 자동화된 규정 준수 가드레일을 사용하여 플랫폼에 제공된 Terraform 모듈을 지속적으로 테스트해야 합니다.
Terraform 경험이 적은 도메인팀이 IaC 구성요소 및 솔루션을 검색하고 소비할 수 있도록 하려면 서비스 카탈로그와 같은 서비스를 사용하는 것이 좋습니다. 맞춤설정 요구사항이 큰 사용자는 기존 솔루션에 사용된 것과 동일한 구성 가능한 Terraform 템플릿에서 자체 배포 솔루션을 만들 수 있도록 허용해야 합니다.
Terraform을 사용할 때는 Terraform 사용 권장사항에 설명된 대로 Google Cloud 권장사항을 따르는 것이 좋습니다.
Terraform을 사용하여 플랫폼 구성요소를 만드는 방법을 보여주기 위해 다음 섹션에서는 Terraform을 사용하여 소비 인터페이스를 노출하고 데이터 제품을 소비하는 방법에 대한 예시를 설명합니다.
소비 인터페이스 노출
데이터 제품의 소비 인터페이스는 다른 팀이 자신의 데이터 제품을 검색 및 사용할 수 있도록 데이터 도메인팀에서 제공하는 데이터 품질 및 운영 매개변수에 대한 보증 집합입니다. 각 소비 인터페이스에는 또한 제품 지원 모델 및 제품 문서가 포함됩니다. 데이터 제품에는 데이터 메시에서 데이터 제품 빌드에 설명된 대로 API 또는 스트림과 같은 다른 유형의 소비 인터페이스가 포함될 수 있습니다. 가장 일반적인 소비 인터페이스는 BigQuery 승인된 데이터 세트, 승인된 뷰, 승인된 함수일 수 있습니다. authorized function. 이 인터페이스는 데이터 메시에 쿼리로 표시되는 읽기 전용 가상 테이블을 노출합니다. 이 인터페이스는 기본 데이터에 직접 액세스하기 위한 권한을 읽기 사용자에게 부여하지 않습니다.
Google은 기본 승인된 데이터 세트에 대한 권한을 팀에 부여하지 않고 승인된 뷰를 만들기 위한 Terraform 모듈 예시를 제공합니다. 이 Terraform 모듈의 다음 코드는 dataset_id
승인된 뷰에 대해 이러한 IAM 권한을 부여합니다.
module "add_authorization" {
source = "terraform-google-modules/bigquery/google//modules/authorization"
version = "~> 4.1"
dataset_id = module.dataset.bigquery_dataset.dataset_id
project_id = module.dataset.bigquery_dataset.project
roles = [
{
role = "roles/bigquery.dataEditor"
group_by_email = "ops@mycompany.com"
}
]
authorized_views = [
{
project_id = "view_project"
dataset_id = "view_dataset"
table_id = "view_id"
}
]
authorized_datasets = [
{
project_id = "auth_dataset_project"
dataset_id = "auth_dataset"
}
]
}
사용자에게 여러 뷰에 대한 액세스 권한을 부여해야 경우 각 승인된 뷰에 액세스를 부여하는 것은 시간도 오래 걸리고 유지보수하기도 어려운 일일 수 있습니다. 여러 승인된 뷰를 만드는 대신 승인된 데이터 세트를 사용하여 승인된 데이터 세트에 생성된 모든 뷰를 자동으로 승인할 수 있습니다.
데이터 제품 소비
대부분의 분석 사용 사례에서 소비 패턴은 데이터가 사용되는 애플리케이션에 의해 결정됩니다. 중앙에서 제공되는 소비 환경의 기본 용도는 소비 애플리케이션 내에서 데이터가 사용되기 전 데이터 탐색을 위한 것입니다. 데이터 메시에서 제품 탐색 및 소비에 설명된 대로 SQL은 데이터 제품을 쿼리하는 데 가장 일반적으로 사용되는 방법입니다. 이러한 이유로, 데이터 플랫폼은 데이터 탐색을 위해 데이터 소비자에게 SQL 애플리케이션을 제공해야 합니다.
분석 사용 사례에 따라 Terraform을 사용하여 데이터 소비자를 위한 소비 환경을 배포할 수 있습니다. 예를 들어 데이터 과학은 데이터 소비자의 일반적인 사용 사례입니다. Terraform을 사용하여 Vertex AI 사용자 관리 노트북을 데이터 과학 개발 환경으로 사용하도록 배포할 수 있습니다. 데이터 과학 노트북에서 데이터 소비자는 자신의 사용자 인증 정보를 사용하여 데이터 메시에 로그인하고 액세스 권한이 있는 데이터를 탐색하고 이 데이터를 기반으로 ML 모델을 개발할 수 있습니다.
Terraform을 사용하여 노트북 환경을 Google Cloud에 배포하고 보호하는 방법을 알아보려면 Vertex AI Workbench 사용자 관리 노트북에서 기밀 데이터 보호를 참조하세요.
일반 서비스 제공
셀프 서비스 IaC 구성요소 및 솔루션 외에도 데이터 플랫폼팀은 여러 데이터 도메인팀에서 사용되는 일반 공유 플랫폼 서비스를 빌드하고 운영하는 데 대한 소유권을 가질 수 있습니다. 공유 플랫폼 서비스의 일반 예시에는 비즈니스 인텔리전스 시각화 도구 또는 Kafka 클러스터와 같은 자체 호스팅되는 서드 파티 소프트웨어가 포함됩니다. Google Cloud에서 데이터 플랫폼팀은 데이터 도메인팀을 위해 Dataplex 및 Cloud Logging 싱크와 같은 리소스를 관리하도록 선택할 수 있습니다. 데이터 플랫폼팀은 데이터 도메인팀을 위한 리소스 관리를 통해 조직 전체에 걸쳐 중앙화된 정책 관리 및 감사를 수행할 수 있습니다.
다음 섹션에서는 Google Cloud의 데이터 메시 내에서 중앙 관리 및 거버넌스를 위해 Dataplex를 사용하는 방법과 데이터 메시에서 데이터 관측 가능성 기능 구현을 보여줍니다.
데이터 거버넌스를 위한 Dataplex
Dataplex는 조직 전체에 걸쳐 데이터 메시 내에서 독립적인 데이터 도메인을 빌드할 수 있도록 도와주는 데이터 관리 플랫폼을 제공합니다. Dataplex를 사용하면 도메인 간 데이터 관리 및 모니터링을 위한 중앙 제어를 유지할 수 있습니다.
Dataplex를 통해 조직은 자신의 데이터(지원되는 데이터 소스)와 코드, 노트북, 로그와 같은 관련 아티팩트를 데이터 도메인을 나타내는 Dataplex 레이크에 논리적으로 구성할 수 있습니다. 다음 다이어그램에서 판매 도메인은 Dataplex를 사용해서 데이터 품질 측정항목 및 로그를 포함한 애셋을 Dataplex 영역에 구성합니다.
앞의 다이어그램에 표시된 것처럼 Dataplex를 사용하여 다음 애셋 간에 도메인 데이터를 관리할 수 있습니다.
- Dataplex를 사용하면 데이터 도메인팀이 Dataplex 레이크라고 부르는 논리적 그룹에서 데이터 애셋을 일관적으로 관리할 수 있습니다. 데이터 도메인팀은 데이터를 물리적으로 이동하거나 단일 스토리지 시스템에 저장하지 않고도 동일한 Dataplex 레이크 내에서 자신의 Dataplex 애셋을 구성할 수 있습니다. Dataplex 애셋은 Dataplex 레이크를 포함하는 Google Cloud 프로젝트가 아니라 여러 Google Cloud 프로젝트에 저장된 Cloud Storage 버킷 및 BigQuery 데이터 세트를 나타낼 수 있습니다. Dataplex 애셋을 구조화 또는 비구조화할 수 있고 분석 데이터 레이크 또는 데이터 웨어하우스에 저장할 수도 있습니다. 다이어그램에는 판매 도메인, 공급망 도메인, 제품 도메인에 대한 데이터 레이크가 있습니다.
- Dataplex 영역은 데이터 도메인팀이 동일한 Dataplex 레이크 내에서 데이터 애셋을 더 작은 하위 그룹으로 구성하고 이 하위 그룹의 주요 특성을 캡처하는 구조를 추가할 수 있게 해줍니다. 예를 들어 Dataplex 영역을 사용하여 데이터 제품에서 연관된 데이터 애셋을 그룹화할 수 있습니다. 데이터 애셋을 단일 Dataplex 영역으로 그룹화하면 데이터 도메인팀이 액세스 정책 및 데이터 거버넌스 정책을 영역 전체에 걸쳐 단일 데이터 제품으로 일관되게 관리할 수 있습니다. 다이어그램에는 오프라인 판매, 온라인 판매, 공급망 웨어하우스, 제품에 대한 데이터 영역이 있습니다.
Dataplex 레이크 및 영역을 통해 조직은 분산된 데이터를 통합하고 비즈니스 컨텍스트를 기반으로 이를 구성할 수 있습니다. 이러한 배열은 메타데이터 관리, 거버넌스 정책 설정, 데이터 품질 모니터링과 같은 활동의 기초를 형성합니다. 이러한 활동을 통해 조직은 데이터 메시에서와 같이 분산된 데이터를 대규모로 관리할 수 있습니다.
데이터 관측 가능성
각 데이터 도메인은 이상적으로 표준화된 접근 방식에 따라 자체 모니터링 및 알림 메커니즘을 구현해야 합니다. 각 도메인은 서비스 모니터링의 개념에 설명된 모니터링 방법을 적용하여 데이터 도메인에 필요한 조정을 수행할 수 있습니다. 관측 가능성은 큰 주제이며 이 문서의 범위를 벗어납니다. 이 섹션에서는 데이터 메시 구현에서 유용한 패턴에 대해서만 다룹니다.
여러 데이터 소비자를 포함하는 제품의 경우 각 소비자에게 제품 상태에 대한 정보를 적시에 제공하는 것이 운영적으로 부담이 될 수 있습니다. 수동으로 관리되는 이메일 배포와 같은 기본 솔루션은 일반적으로 오류가 자주 발생합니다. 계획된 서비스 중단, 예정된 제품 출시, 사용 중단을 소비자에게 알리는 데 유용할 수 있지만 실시간 운영 인식은 제공하지 않습니다.
중앙 서비스는 데이터 메시에서 제품의 상태 및 품질을 모니터링하는 데 중요한 역할을 수행할 수 있습니다. 성공적인 데이터 메시 구현을 위한 필요 조건은 아니지만 관측 가능성 기능을 구현하면 데이터 생산자 및 소비자의 만족도를 높이고 전체적인 운영 및 지원 비용을 줄일 수 있습니다. 다음 다이어그램은 Cloud Monitoring을 기반으로 데이터 메시 관측 가능성의 아키텍처를 보여줍니다.
다음 섹션에서는 다음과 같이 다이어그램에 표시된 구성요소를 설명합니다.
- 데이터 제품의 전체 상태를 보여주는 업타임 체크
- 데이터 제품에 대한 유용한 지표를 제공하는 커스텀 측정항목
- 사용 중인 데이터 제품의 변경사항을 데이터 소비자에게 알리는 중앙 데이터 플랫폼팀의 운영 지원
- 데이터 제품의 성능을 보여주는 제품 스코어카드 및 대시보드
업타임 체크
데이터 제품은 업타임 체크를 구현하는 단순한 커스텀 애플리케이션을 만들 수 있습니다. 이러한 검사는 제품의 전체 상태에 대한 고급 지표로 작동할 수 있습니다. 예를 들어 데이터 제품팀이 해당 제품의 데이터 품질에서 갑작스러운 하락을 발견하면 팀이 해당 제품을 비정상으로 표시할 수 있습니다. 실시간에 가까운 업타임 체크는 업스트림 데이터 제품에서 데이터의 지속적인 가용성에 의존하는 파생된 제품이 있는 데이터 소비자에게 특히 중요합니다. 데이터 생산자는 업스트림 종속 항목 검사를 포함하도록 업타임 체크를 빌드해서 데이터 소비자에게 제품 상태에 대해 정확한 상태 정보를 제공해야 합니다.
데이터 소비자는 제품 업타임 체크를 자신의 처리 과정에 포함할 수 있습니다. 예를 들어 데이터 제품으로 제공된 데이터를 기반으로 보고서를 생성하는 작성자 작업은 첫 번째 단계로서 해당 제품이 '실행 중' 상태인지 여부를 검증할 수 있습니다. 업타임 체크 애플리케이션은 해당 HTTP 응답의 메시지 본문에 구조화된 페이로드를 반환하는 것이 좋습니다. 이러한 구조화된 페이로드는 문제가 있는지 여부, 사람이 판독 가능한 형식의 문제 근본 원인, 그리고 가능한 경우 서비스를 복원하기 위한 예상 시간을 표시해야 합니다. 이 구조화된 페이로드는 또한 제품 상태에 대해 보다 세분화된 정보를 제공할 수 있습니다. 예를 들어 제품으로 노출된 승인된 데이터 세트에서 각 뷰에 대한 상태 정보를 포함할 수 있습니다.
커스텀 측정항목
데이터 제품은 유용성을 측정하기 위한 여러 커스텀 측정항목을 포함할 수 있습니다. 데이터 생산자팀은 이러한 커스텀 측정항목을 지정된 도메인 특정 Google Cloud 프로젝트에 게시할 수 있습니다. 모든 데이터 제품 간에 통합된 모니터링 환경을 만들기 위해 중앙 데이터 메시 모니터링 프로젝트에 도메인 특정 프로젝트에 대한 액세스 권한을 부여할 수 있습니다.
각 유형의 데이터 제품 소비 인터페이스에는 유용성을 측정하기 위한 여러 다른 측정항목이 포함되어 있습니다. 비즈니스 도메인과 관련된 측정항목도 있을 수 있습니다. 예를 들어 뷰를 통해 노출되었거나 Storage Read API를 통해 노출된 BigQuery 테이블의 측정항목은 다음과 같을 수 있습니다.
- 행 수
- 데이터 최신 상태(측정 시간 전의 시간(초)으로 표시됨)
- 데이터 품질 점수
- 사용 가능한 데이터. 이 측정항목은 데이터를 쿼리에 사용할 수 있는지를 나타낼 수 있습니다. 대안은 이 문서의 앞에서 설명한 업타임 체크를 사용하는 것입니다.
이러한 측정항목은 특정 제품에 대한 서비스 수준 지표(SLI)로 표시될 수 있습니다.
데이터 스트림(Pub/Sub 주제로 구현됨)의 경우 이 목록은 주제를 통해 제공되는 표준 Pub/Sub 측정항목일 수 있습니다.
중앙 데이터 플랫폼팀의 운영 지원
중앙 데이터 플랫폼팀은 커스텀 대시보드를 노출하여 서로 데이터 소비자에 대해 다른 세부정보 수준을 표시할 수 있습니다. 데이터 메시의 제품 및 해당 제품의 업타임 상태를 나열하는 간단한 상태 대시보드를 통해 여러 최종 사용자 요청에 응답할 수 있습니다.
중앙팀은 또한 데이터 소비자에게 사용되는 데이터의 여러 이벤트에 대한 정보를 알리기 위한 알림 배포 허브로 작동할 수 있습니다. 일반적으로 이 허브는 알림 정책을 만들어서 구성됩니다. 이 기능을 중앙화하면 각 데이터 생산자팀에서 수행해야 하는 작업을 줄일 수 있습니다. 이러한 정책을 만들 때는 데이터 도메인에 대한 지식이 필요하지 않으며 데이터 소비의 병목 현상을 방지하는 데 도움이 됩니다.
데이터 메시 모니터링을 위한 이상적인 최종 상태는 제품이 사용 가능할 때 제품에 지원되는 SLI 및 서비스 수준 목표(SLO)를 데이터 제품 태그 템플릿으로 노출하는 것입니다. 그러면 중앙팀이 Monitoring API를 통한 서비스 모니터링을 사용하여 해당 알림을 자동으로 배포할 수 있습니다.
제품 스코어카드
중앙 거버넌스 계약의 일부로 데이터 메시의 4개 기능은 데이터 제품의 스코어카드 생성을 위한 기준을 정의할 수 있습니다. 이러한 스코어카드는 데이터 제품 성능에 대한 객관적 측정 기준이 될 수 있습니다.
스코어카드 계산을 위해 사용되는 많은 변수는 데이터 제품이 SLO를 충족하는 시간의 비율입니다. 유용한 기준에는 업타임 비율, 평균 데이터 품질 점수, 임곗값 미만으로 떨어지지 않는 데이터 최신 상태의 제품 비율이 포함될 수 있습니다. 모니터링 쿼리 언어(MQL)를 사용해서 이러한 측정항목을 자동으로 계산하려면 중앙 모니터링 프로젝트에서 업타임 체크의 결과 및 커스텀 측정항목이 충분해야 합니다.
다음 단계
- BigQuery 자세히 알아보기
- Dataplex 자세히 알아보기
- 클라우드 아키텍처 센터에서 참조 아키텍처, 다이어그램, 권장사항 자세히 살펴보기