BigQuery의 데이터 거버넌스 소개

이 문서에서는 BigQuery 데이터 거버넌스를 소개하고 BigQuery 기능을 사용하여 BigQuery 데이터 거버넌스 정책을 구현하고 적용하는 방법을 설명합니다. Google Cloud의 데이터 거버넌스에 대한 자세한 개요는 데이터 거버넌스란 무엇인가요?를 참조하세요.

데이터 거버넌스는 액세스 및 정확성이 조직 정책과 규정을 따르는지 확인하기 위해 수명 주기 전반에서 데이터의 보안과 품질을 관리하는 것입니다. 이러한 데이터 거버넌스 우선순위를 다음 세 가지 카테고리로 분류할 수 있습니다.

액세스 제어
데이터 책임성
데이터 품질

다음 섹션에서는 이러한 데이터 거버넌스 카테고리를 정의하고 BigQuery 기능이 이를 지원하는 방법을 설명하며 다음 단계를 권장합니다.

액세스 제어

데이터 액세스 관리는 데이터에 액세스할 수 있는 사용자를 관리하는 규칙과 정책을 정의, 적용, 모니터링하는 프로세스입니다. 액세스 관리는 데이터에 액세스할 수 있도록 승인된 사용자만 데이터에 액세스할 수 있도록 합니다. BigQuery는 다음과 같은 데이터 액세스에 유용한 기능을 제공합니다.

Identity and Access Management(IAM). IAM을 사용하면 프로젝트, 데이터 세트, 테이블, 뷰와 같은 BigQuery 리소스에 액세스할 수 있는 사용자를 제어할 수 있습니다. 사용자, 그룹, 서비스 계정에 IAM 역할을 부여할 수 있습니다. 이러한 역할은 리소스로 수행할 수 있는 작업을 정의합니다.
열 수준 액세스 제어 및 행 수준 액세스 제어. 열 수준 및 행 수준 액세스 제어를 사용하면 사용자 속성이나 데이터 값을 기반으로 액세스를 테이블의 특정 열과 행으로 제한할 수 있습니다. 이 제어를 통해 무단 액세스로부터 민감한 정보를 보호하도록 세분화된 액세스를 구현할 수 있습니다.
데이터 전송 관리. VPC 서비스 제어를 사용하면 Google Cloud 리소스 주위에 경계를 만들고 조직 정책에 따라 이러한 리소스에 대한 액세스를 제어할 수 있습니다.
감사 로그. 감사 로그는 조직 내에서의 사용자 활동과 시스템 이벤트에 대한 자세한 기록을 제공합니다. 이러한 로그는 데이터 거버넌스 정책을 적용하고 잠재적인 보안 위험을 식별하는 데 도움이 됩니다.

액세스 제어를 위한 다음 단계

다음 표에서는 액세스 제어 기능에 대해 자세히 알아볼 수 있는 다음 단계를 설명합니다.

경험 수준	학습 과정
신규 클라우드 사용자	BigQuery에서 사전 정의된 역할을 살펴보고 최소 권한의 원칙에 따라 역할을 할당하는 방법을 알아봅니다.
숙련된 클라우드 사용자	권한 관리의 유연성과 세분성을 높이려면 니즈에 맞는 커스텀 역할을 만드는 것이 좋습니다. 행과 열 제어를 추가하여 테이블의 특정 행과 열에 대한 액세스를 제어합니다. VPC 서비스 제어를 설정하여 Google Cloud 리소스 주위에 액세스 경계를 설정합니다.

데이터 책임성

데이터 관리 책임을 통해 쿼리, 전송, 저장 중에 민감한 정보를 적절하게 분류, 마스킹, 수정, 암호화하여 보호할 수 있습니다. 이 방식은 데이터 보호 및 구성을 개선합니다. BigQuery는 다음과 같은 데이터 관리 책임을 지원하는 기능을 제공합니다.

데이터 마스킹. 데이터 마스킹을 사용하면 승인된 사용자가 주변 데이터에 액세스하도록 허용하면서 테이블에서 민감한 정보를 숨길 수 있습니다. 또한 민감한 정보 패턴과 일치하는 데이터를 마스킹하여 실수로 인한 데이터 공개를 방지할 수 있습니다.
암호화. BigQuery는 자동으로 모든 저장 데이터와 전송 중 데이터를 암호화하고 특정 니즈와 요구사항에 맞게 암호화 설정을 맞춤설정할 수 있게 해줍니다.
메타데이터 관리. 메타데이터 관리를 사용하면 리소스에 태그를 지정할 수 있으므로 데이터 검색, 구성, 분류에 도움이 됩니다.

데이터 관리 책임을 위한 다음 단계

다음 표에서는 데이터 관리 책임 기능에 대해 자세히 알아볼 수 있는 다음 단계를 설명합니다.

경험 수준	학습 과정
신규 클라우드 사용자	Google에서 기본적으로 저장 데이터와 전송 중 데이터를 암호화하는 방법을 알아봅니다.
숙련된 클라우드 사용자	테이블에 열 수준 데이터 마스킹을 추가하여 민감한 정보를 공개하지 않고 조직을 통해 정보를 간편하게 공유할 수 있도록 합니다. 민감한 정보 보호를 사용하여 개인 식별 정보(PII), 금융 데이터, 건강 정보와 같은 민감하고 위험성이 높은 정보의 데이터에 스캔합니다.

데이터 품질

데이터 품질 관리는 데이터 계보를 추적하고 데이터가 정확성, 완전성, 일관성에 대한 표준을 충족하는지 확인하는 프로세스입니다. BigQuery는 다음과 같은 데이터 품질을 위한 기능을 제공합니다.

데이터 계보. 데이터 계보를 통해 시간 경과에 따른 데이터 흐름을 추적하여 데이터 원본, 시간 경과에 따른 데이터 변경 방식, 시스템 내 최종 대상에 대한 유용한 정보를 제공할 수 있습니다.
데이터 프로필 스캔. 데이터 프로필 스캔을 사용하면 평균 및 고유 값과 같은 데이터의 통계 특성을 분석할 수 있습니다.
데이터 품질 스캔. 데이터 품질 스캔을 사용하면 데이터 확인을 수행하고 정의된 규칙에 따라 데이터를 검증하며 데이터 품질 문제를 해결할 수 있습니다.

데이터 품질을 위한 다음 단계

다음 표에서는 액세스 데이터 품질 기능에 대해 자세히 알아볼 수 있는 다음 단계를 설명합니다.

경험 수준	학습 과정
신규 클라우드 사용자	데이터 프로필 스캔을 실행하여 데이터 한도 또는 평균 등 데이터에 대한 유용한 정보를 수집합니다.
숙련된 클라우드 사용자	BigQuery 프로젝트에서 데이터 계보를 사용 설정하여 로드, 복사, 데이터 수정과 같은 BigQuery 작업의 계보 정보를 자동으로 기록합니다. 반복되는 데이터 품질 스캔을 설정하여 사전 정의된 스캔 규칙과 관련된 발생 가능한 데이터 문제를 알립니다. 스캔이 특정 니즈에 맞도록 데이터 품질 스캔의 커스텀 데이터 규칙을 설정합니다.

경험 수준

학습 과정

신규 클라우드 사용자

데이터 프로필 스캔을 실행하여 데이터 한도 또는 평균 등 데이터에 대한 유용한 정보를 수집합니다.

숙련된 클라우드 사용자

BigQuery 프로젝트에서 데이터 계보를 사용 설정하여 로드, 복사, 데이터 수정과 같은 BigQuery 작업의 계보 정보를 자동으로 기록합니다.
반복되는 데이터 품질 스캔을 설정하여 사전 정의된 스캔 규칙과 관련된 발생 가능한 데이터 문제를 알립니다.
스캔이 특정 니즈에 맞도록 데이터 품질 스캔의 커스텀 데이터 규칙을 설정합니다.