이 페이지는 Cloud Translation API를 통해 번역되었습니다.

보안 BigQuery 데이터 웨어하우스로 데이터 가져오기

Last reviewed 2025-06-15 UTC

많은 조직들이 다양한 비즈니스 목적에 따라 데이터를 분석할 수 있도록 민감한 데이터가 저장된 데이터 웨어하우스를 배포합니다. 이 문서는 BigQuery를 사용해서 데이터 웨어하우스를 배포 및 보호하는 데이터 엔지니어 및 보안 관리자를 대상으로 합니다. 이 문서는 다음으로 구성된 청사진의 일부입니다.

Terraform 구성 및 스크립트가 포함된 두 개의 GitHub 저장소(terraform-google-secured-data-warehouse 및 terraform-google-secured-data-warehouse-onprem-ingest) Terraform 구성은 Google Cloud 에서 기밀 데이터를 저장하는 데이터 웨어하우스를 지원하는 환경을 설정합니다.
이 청사진의 아키텍처, 디자인, 보안 제어에 대한 가이드(이 문서)
샘플 환경을 배포하는 둘러보기

이 문서에서는 다음 사항에 대해 설명합니다.

프로덕션 환경에서 데이터 웨어하우스 보안을 위해 사용할 수 있는 아키텍처 및 Google Cloud 서비스
온프레미스 환경과 같은 외부 네트워크에서 BigQuery로 데이터를 가져오기 위한 권장사항
다음을 포함하여Google Cloud에서 데이터 웨어하우스를 생성, 배포, 운영할 때 데이터 거버넌스에 대한 권장사항
- 데이터 익명화
- 기밀 데이터의 차등 처리
- 열 수준 암호화
- 열 수준 액세스 제어

이 문서에서는 엔터프라이즈 기반 청사진에 설명된 대로 일련의 기본적인 보안 제어가 이미 구성되었다고 가정합니다. 이 문서는 데이터 웨어하우스에서 기밀 데이터 보호를 위해 기존 보안 제어에 추가적인 제어를 쌓을 수 있도록 도와줍니다.

데이터 웨어하우스 사용 사례

이 청사진은 다음 사용 사례를 지원합니다.

terraform-google-secured-data-warehouse 저장소를 사용하여 Google Cloud 에서 BigQuery 데이터 웨어하우스로 데이터 가져오기
terraform-google-secured-data-warehouse-onprem-ingest 저장소를 사용하여 온프레미스 환경 또는 다른 클라우드에서 BigQuery 데이터 웨어하우스로 데이터 가져오기

개요

BigQuery와 같은 데이터 웨어하우스는 유용한 정보를 얻기 위해 비즈니스 데이터를 분석할 수 있도록 도와줍니다. 분석가는 데이터 웨어하우스에 저장된 비즈니스 데이터에 액세스해서 유용한 정보를 얻어냅니다. 데이터 웨어하우스에 기밀 데이터가 포함되어 있으면 저장, 전송, 분석 중 비즈니스 데이터의 보안, 기밀성, 무결성, 가용성 보존을 위해 조치를 취해야 합니다. 이 청사진에서는 다음을 수행합니다.

외부 데이터 소스에서 데이터를 가져올 때는 Google Cloud 외부에 있는 데이터(예: 온프레미스 환경)를 암호화하고 Google Cloud로 가져옵니다.
기밀 데이터에 대한 보안 액세스 제어를 구성합니다.
데이터 파이프라인 보안 제어를 구성합니다.
서로 다른 캐릭터에 대해 적절한 책임 구분을 구성합니다.
Google Cloud 에 있는 다른 소스(내부 데이터 소스라고도 함)에서 데이터를 가져올 때는 기밀 데이터를 찾아 익명처리하는 템플릿을 설정합니다.
기밀 데이터 보호를 돕기 위해 적절한 보안 제어 및 로깅을 설정합니다.
데이터 분류, 정책 태그, 동적 데이터 마스킹, 열 수준 암호화를 사용하여 데이터 웨어하우스의 특정 열에 대한 액세스를 제한합니다.

아키텍처

기밀 데이터 웨어하우스를 만들려면 데이터를 안전하게 가져온 후 VPC 서비스 제어 경계에 데이터를 저장해야 합니다.

Google Cloud에서 데이터를 가져올 때의 아키텍처

다음 이미지는 terraform-google-secured-data-warehouse 저장소를 사용하여 Google Cloud 에서 소스 데이터를 가져올 때 처리된 데이터를 분류, 익명처리, 저장하는 방법을 보여줍니다. 또한 필요에 따라 분석용으로 기밀 데이터를 재식별화하는 방법을 보여줍니다.

내부 소스를 위한 민감한 정보 웨어하우스 아키텍처

외부 소스에서 데이터를 가져올 때의 아키텍처

다음 이미지는 terraform-google-secured-data-warehouse-onprem-ingest 저장소를 사용하여 온프레미스 환경 또는 다른 클라우드에서 BigQuery 웨어하우스로 데이터를 가져올 때 데이터가 처리되고 저장되는 방식을 보여줍니다.

외부 네트워크의 민감한 정보 데이터 웨어하우스 아키텍처

Google Cloud 서비스 및 기능

이 아키텍처는 다음과 같은 Google Cloud 서비스 및 기능 조합을 사용합니다.

서비스 또는 기능	설명
BigQuery	내부 및 외부 데이터 소스 모두에 적용됩니다. 그러나 다음과 같이 다양한 저장소 옵션이 있습니다. Google Cloud에서 데이터를 가져올 때 BigQuery는 기밀 데이터 경계에 기밀 데이터를 저장합니다. 외부 소스에서 데이터를 가져올 때 BigQuery는 암호화된 데이터와 래핑된 암호화 키를 별도의 테이블에 저장합니다. BigQuery는 액세스 제어, 기밀 데이터를 위한 열 수준 보안, 데이터 암호화를 포함하여 여러 보안 제어를 사용해서 콘텐츠를 보호합니다.
Cloud HSM을 사용한 Cloud Key Management Service (Cloud KMS)	내부 및 외부 소스 모두에 적용됩니다. 하지만 외부 데이터 소스의 추가 사용 사례가 있습니다. Cloud HSM은 키 암호화 키 (KEK)를 호스팅하는 클라우드 기반 하드웨어 보안 모듈 (HSM) 서비스입니다. 외부 소스에서 데이터를 가져올 때는 Cloud HSM을 사용하여 네트워크의 데이터를 암호화하는 데 사용하는 암호화 키를 생성한 후 Google Cloud로 전송합니다.
Cloud Logging	내부 및 외부 소스 모두에 적용됩니다. Cloud Logging은 분석 및 조사 도구를 통해 Google Cloud 서비스에서 스토리지 및 검색을 위한 모든 로그를 수집합니다.
Cloud Monitoring	내부 및 외부 소스에 모두 적용됩니다. Cloud Monitoring은 Google Cloud 서비스에 관한 성능 정보와 측정항목을 수집하고 저장합니다.
Cloud Run Functions	외부 데이터 소스에만 적용됩니다. Cloud Run 함수는 Cloud Storage에 의해 트리거되며 Cloud Storage가 처리 버킷에 업로드하는 데이터를 BigQuery에 씁니다.
Cloud Storage 및 Pub/Sub	내부 및 외부 소스에 모두 적용됩니다. Cloud Storage 및 Pub/Sub는 다음과 같이 데이터를 수신합니다. Cloud Storage: 일괄 데이터를 수신하고 저장합니다. 기본적으로 Cloud Storage는 TLS를 사용하여 전송 중 데이터를 암호화하고 AES-256을 사용하여 스토리지의 데이터를 암호화합니다. 암호화 키는 고객 관리 암호화 키(CMEK)입니다. 암호화에 관한 자세한 내용은 데이터 암호화 옵션을 참고하세요. Identity and Access Management, 액세스 제어 목록 (ACL), 정책 문서와 같은 보안 제어를 사용해서 Cloud Storage 버킷 액세스를 보호할 수 있습니다. 지원되는 액세스 제어에 대한 자세한 내용은 액세스 제어 개요를 참고하세요. Pub/Sub: 익명화 전 스트리밍 데이터를 수신하고 저장합니다. Pub/Sub는 CMEK와 함께 인증, 액세스 제어, 메시지 수준 암호화를 사용해서 데이터를 보호합니다.
BigQuery용 데이터 프로파일러	내부 및 외부 소스 모두에 적용됩니다. BigQuery용 데이터 프로파일러는 모든 폴더와 프로젝트를 포함하여 전체 조직의 모든 BigQuery 테이블과 열에서 민감한 정보를 자동으로 스캔합니다.
Dataflow 파이프라인	내부 및 외부 소스에 모두 적용할 수 있지만, 파이프라인은 다릅니다. Dataflow 파이프라인은 다음과 같이 데이터를 가져옵니다. Google Cloud에서 데이터를 가져올 때 두 개의 Dataflow 파이프라인이 기밀 데이터를 익명화 및 재식별합니다. 첫 번째 파이프라인은 가명처리를 통해 기밀 데이터를 익명화합니다. 두 번째 파이프라인은 승인된 데이터가 액세스를 요구할 때 기밀 데이터를 재식별화합니다. 외부 소스에서 데이터를 가져올 때 하나의 Dataflow 파이프라인이 스트리밍 데이터를 BigQuery에 씁니다.
Dataplex 범용 카탈로그	내부 및 외부 소스에 모두 적용됩니다. Dataplex 범용 카탈로그는 수집 중 정책 태그로도 알려진 메타데이터를 사용해서 기밀 데이터를 자동으로 분류합니다. 또한 Dataplex 범용 카탈로그는 메타데이터를 사용해서 기밀 데이터 액세스를 관리합니다. 데이터 웨어하우스 내의 데이터 액세스를 제어하기 위해 기밀 데이터가 포함된 열에 정책 태그를 적용합니다.
Dedicated Interconnect	외부 데이터 소스에만 적용됩니다. Dedicated Interconnect를 사용하면 네트워크와 Google Cloud간에 데이터를 이동할 수 있습니다. 네트워크 연결 제품 선택에 설명된 대로 다른 연결 옵션을 사용할 수 있습니다.
IAM 및 Resource Manager	내부 및 외부 소스에 모두 적용됩니다. Identity and Access Management (IAM) 및 Resource Manager는 액세스를 제한하고 리소스를 분류합니다. 액세스 제어 및 리소스 계층 구조는 최소 권한의 원칙을 따릅니다.
Security Command Center	내부 및 외부 소스 모두에 적용됩니다. Security Command Center는 중앙의 Google Cloud 환경 전반에서 보안 발견 항목을 모니터링하고 검토합니다.
Sensitive Data Protection	내부 및 외부 소스에 모두 적용되지만 스캔이 다르게 실행됩니다. 민감한 정보 보호는 다음과 같이 데이터를 검사합니다. Google Cloud에서 데이터를 가져올 때 Sensitive Data Protection은 처리 중에 기밀 데이터를 익명화합니다. Sensitive Data Protection은 감지된 infoType 또는 레코드에 따라 구조화된 데이터 및 구조화되지 않은 데이터를 익명화합니다. 외부 소스에서 데이터를 가져올 때 Sensitive Data Protection은 BigQuery에 저장된 데이터를 검사하여 보호되지 않은 민감한 정보를 찾습니다. 자세한 내용은 민감한 정보 보호를 사용하여 BigQuery 데이터 스캔을 참고하세요.
VPC 서비스 제어	내부 및 외부 소스에 모두 적용할 수 있지만 경계는 다릅니다. VPC 서비스 제어는 승인, 액세스 제어, 보안 데이터 교환을 설정하여 서비스 및 리소스를 격리하는 보안 경계를 만듭니다. 경계는 다음과 같습니다. 데이터 수집 경계는 수신 데이터를 수락 (일괄 처리 또는 스트리밍)하고 익명화합니다. 개별 시작 영역을 사용함으로써 수신 데이터로부터 나머지 워크로드를 보호할 수 있습니다. Google Cloud에서 데이터를 가져올 때 기밀 데이터 경계는 기밀 데이터를 재식별하고 제한된 영역에 저장할 수 있습니다. 외부 데이터를 가져올 때 데이터 경계는 암호화 데이터를 다른 워크로드에서 격리합니다. 거버넌스 경계는 암호화 키를 저장하고 기밀 데이터로 간주되는 항목을 정의합니다. 이러한 경계는 추가적인 액세스 제어 및 모니터링을 설정하여 수신 콘텐츠를 보호하고, 기밀 데이터를 격리시키고, 웨어하우스에 있는 실제 데이터로부터 거버넌스를 구분하기 위해 디자인되었습니다. 거버넌스에는 키 관리, Data Catalog 관리, 로깅이 포함됩니다.

조직 구조

조직 리소스를 관리하고 테스트 환경을 프로덕션 환경에서 분리하기 위해 조직 리소스를 그룹화할 수 있습니다. Resource Manager를 사용하면 프로젝트, 폴더, 조직별로 리소스를 논리적으로 그룹화할 수 있습니다.

다음 다이어그램은 부트스트랩, 공통, 프로덕션, 비프로덕션 (또는 스테이징), 개발 등의 여러 다른 환경을 나타내는 폴더로 나눠진 리소스 계층 구조를 보여줍니다. 아키텍처에서 대부분의 프로젝트는 프로덕션 폴더에 배포하고 데이터 거버넌스 프로젝트는 거버넌스에 사용되는 공통 폴더에 배포합니다.

Google Cloud에서 데이터를 가져올 때의 조직 구조

다음 다이어그램은 terraform-google-secured-data-warehouse 저장소를 사용하여Google Cloud 에서 데이터를 가져올 때의 조직 구조를 보여줍니다.

내부 소스의 민감한 정보 데이터 웨어하우스에 대한 리소스 계층 구조

외부 소스에서 데이터를 가져올 때의 조직 구조

다음 다이어그램은 terraform-google-secured-data-warehouse-onprem-ingest 저장소를 사용하여 외부 소스에서 데이터를 가져올 때의 조직 구조를 보여줍니다.

외부 소스의 민감한 정보 데이터 웨어하우스에 대한 리소스 계층 구조

폴더

폴더를 사용하여 프로덕션 환경 및 거버넌스 서비스를 비프로덕션 및 테스트 환경에서 격리합니다. 다음 표에서는 이 아키텍처에서 사용되는 엔터프라이즈 기반 청사진의 폴더를 설명합니다.

폴더	설명
부트스트랩	엔터프라이즈 기반 청사진을 배포하는 데 필요한 리소스를 포함합니다.
일반	데이터 거버넌스 프로젝트와 같은 조직의 중앙화된 서비스를 포함합니다.
프로덕션	테스트를 거쳐 사용할 준비가 된 클라우드 리소스가 있는 프로젝트를 포함합니다. 이 아키텍처의 프로덕션 폴더에는 데이터 수집 프로젝트와 데이터 관련 프로젝트가 포함되어 있습니다.
비프로덕션	출시를 위해 테스트 및 스테이징 중인 클라우드 리소스가 있는 프로젝트가 포함됩니다. 이 아키텍처의 비프로덕션 폴더에는 데이터 수집 프로젝트와 데이터 관련 프로젝트가 포함되어 있습니다.
개발	개발 중인 클라우드 리소스가 있는 프로젝트를 포함합니다. 이 아키텍처에서 개발 폴더에는 데이터 수집 프로젝트와 데이터 관련 프로젝트가 포함되어 있습니다.

조직의 폴더 구조에 맞게 이러한 폴더 이름을 변경할 수 있지만 폴더 구조를 비슷하게 유지하는 것이 좋습니다. 자세한 내용은 엔터프라이즈 기반 청사진을 참고하세요.

프로젝트

프로젝트를 사용하여 환경의 각 부분을 격리합니다. 다음 표에서는 조직 내에 필요한 프로젝트에 대해 설명합니다. Terraform 코드를 실행할 때 이러한 프로젝트를 만듭니다. 이러한 프로젝트 이름을 변경할 수 있지만 프로젝트 구조를 비슷하게 유지하는 것이 좋습니다.

프로젝트	설명
데이터 수집	내부 및 외부 소스의 공통 프로젝트입니다. 데이터를 수신하고 기밀 데이터를 익명화하기 위해 필요한 서비스를 포함합니다.
데이터 거버넌스	내부 및 외부 소스의 공통 프로젝트입니다. 키 관리, 로깅, 데이터 카탈로그 기능을 제공하는 서비스를 포함합니다.
비기밀 데이터	내부 소스 전용 프로젝트입니다. 익명화된 데이터를 저장하기 위해 필요한 서비스를 포함합니다.
기밀 데이터	내부 소스 전용 프로젝트입니다. 기밀 데이터를 저장하고 재식별화하기 위해 필요한 서비스를 포함합니다.
데이터	외부 소스 전용 프로젝트입니다. 데이터를 저장하는 데 필요한 서비스를 포함합니다.

이러한 프로젝트 외에도 해당 환경에는 Dataflow Flex 템플릿 작업을 호스팅하는 프로젝트가 포함되어야 합니다. Flex 템플릿 작업은 스트리밍 데이터 파이프라인에 필요합니다.

프로젝트에 역할 및 그룹 매핑

조직 내 여러 다른 사용자 그룹에 기밀 데이터 웨어하우스를 구성하는 프로젝트에 대한 액세스 권한을 부여해야 합니다. 다음 섹션에서는 생성된 프로젝트에서 사용자 그룹 및 역할 할당을 위한 아키텍처 권장사항에 대해 설명합니다. 조직의 기존 구조에 맞게 그룹을 맞춤설정할 수 있지만 책임 구분 및 역할 할당을 비슷하게 유지하는 것이 좋습니다.

데이터 분석가 그룹

데이터 분석가는 웨어하우스의 데이터를 분석합니다. 이 그룹은 terraform-google-secured-data-warehouse-onprem-ingest 저장소에서 데이터가 데이터 웨어하우스에 로드된 후 데이터를 확인하고 암호화된 데이터 뷰어 그룹과 동일한 작업을 실행할 수 있습니다.

다음 표에서는 terraform-google-secured-data-warehouse 저장소의 여러 프로젝트에서 그룹의 역할을 설명합니다 (내부 데이터 소스만 해당).

프로젝트 매핑 역할

프로젝트 매핑	역할
데이터 수집	Dataflow 개발자 (`roles/dataflow.developer`) Dataflow 뷰어 (`roles/dataflow.viewer`) 로그 뷰어 (`roles/logging.viewer`) 기밀 데이터 액세스가 필요한 데이터 분석가를 위한 추가 역할입니다. 세분화된 권한의 리더 (`roles/datacatalog.categoryFineGrainedReader`)
기밀 데이터	BigQuery 데이터 뷰어 (`roles/bigquery.dataViewer`) BigQuery 작업 사용자 (`roles/bigquery.jobUser`) BigQuery 사용자(`roles/bigquery.user`) Dataflow 개발자 (`roles/dataflow.developer`) Dataflow 뷰어 (`roles/dataflow.viewer`) 로그 뷰어 (`roles/logging.viewer`)
비기밀 데이터	BigQuery 데이터 뷰어 (`roles/bigquery.dataViewer`) BigQuery 작업 사용자 (`roles/bigquery.jobUser`) BigQuery 사용자(`roles/bigquery.user`) 로그 뷰어 (`roles/logging.viewer`)

데이터 수집

기밀 데이터 액세스가 필요한 데이터 분석가를 위한 추가 역할입니다.

세분화된 권한의 리더 (roles/datacatalog.categoryFineGrainedReader)

기밀 데이터

비기밀 데이터

다음 표에서는 terraform-google-secured-data-warehouse-onprem-ingest 저장소의 여러 프로젝트에서 그룹의 역할을 설명합니다 (외부 데이터 소스만 해당).

할당 범위	역할
데이터 수집 프로젝트	Dataflow 개발자 (`roles/dataflow.developer`) Dataflow 뷰어 (`roles/dataflow.viewer`) 로그 뷰어 (`roles/logging.viewer`)
데이터 프로젝트	BigQuery 데이터 뷰어 (`roles/bigquery.dataViewer`) BigQuery 작업 사용자 (`roles/bigquery.jobUser`) BigQuery 사용자(`roles/bigquery.user`) Dataflow 개발자 (`roles/dataflow.developer`) Dataflow 뷰어 (`roles/dataflow.viewer`) DLP 관리자 (`roles/dlp.admin`) 로그 뷰어 (`roles/logging.viewer`)
데이터 정책 수준	마스킹된 리더 (`roles/bigquerydatapolicy.maskedReader`)

암호화된 데이터 뷰어 그룹 (외부 소스만 해당)

terraform-google-secured-data-warehouse-onprem-ingest 저장소의 암호화된 데이터 뷰어 그룹은 Looker Studio 및 SAP Business Objects와 같은 다른 보고 도구를 통해 BigQuery 보고 테이블의 암호화된 데이터를 볼 수 있습니다. 암호화된 데이터 뷰어 그룹은 암호화된 열의 일반 텍스트 데이터를 볼 수 없습니다.

이 그룹은 데이터 프로젝트의 BigQuery 사용자(roles/bigquery.jobUser) 역할이 필요합니다. 이 그룹은 데이터 정책 수준에서 마스킹된 리더(roles/bigquerydatapolicy.maskedReader) 역할도 필요합니다.

일반 텍스트 리더 그룹 (외부 소스만 해당)

terraform-google-secured-data-warehouse-onprem-ingest 저장소의 일반 텍스트 리더 그룹에는 복호화 사용자 정의 함수 (UDF)를 호출하여 일반 텍스트 데이터를 볼 수 있는 권한과 마스킹되지 않은 데이터를 읽을 수 있는 추가 권한이 있습니다.

이 그룹은 데이터 프로젝트의 다음 역할이 필요합니다.

또한 이 그룹에는 Dataplex 범용 카탈로그 수준에서 세분화된 권한의 리더(roles/datacatalog.categoryFineGrainedReader) 역할이 필요합니다.

데이터 엔지니어 그룹

데이터 엔지니어는 데이터 파이프라인 및 웨어하우스를 설정하고 유지 관리합니다.

다음 표에서는 terraform-google-secured-data-warehouse 저장소의 여러 프로젝트에서 그룹의 역할을 설명합니다.

과제 점수	역할
데이터 수집 프로젝트	Cloud Build 편집자(`roles/cloudbuild.builds.editor`) Cloud KMS 뷰어(`roles/cloudkms.viewer`) Composer 사용자 (`roles/composer.user`) Compute 네트워크 사용자 (`roles/compute.networkUser`) Dataflow 관리자(`roles/dataflow.admin`) 로그 뷰어 (`roles/logging.viewer`)
기밀 데이터 프로젝트	BigQuery 데이터 편집기 (`roles/bigquery.dataEditor`) BigQuery 작업 사용자 (`roles/bigquery.jobUser`) Cloud Build 편집자(`roles/cloudbuild.builds.editor`) Cloud KMS 뷰어(`roles/cloudkms.viewer`) Compute 네트워크 사용자 (`roles/compute.networkUser`) Dataflow 관리자(`roles/dataflow.admin`) 로그 뷰어 (`roles/logging.viewer`)
비기밀 데이터 프로젝트	BigQuery 데이터 편집기 (`roles/bigquery.dataEditor`) BigQuery 작업 사용자 (`roles/bigquery.jobUser`) Cloud KMS 뷰어(`roles/cloudkms.viewer`) 로그 뷰어 (`roles/logging.viewer`)

다음 표에서는 terraform-google-secured-data-warehouse-onprem-ingest 저장소의 여러 프로젝트에서 그룹의 역할을 설명합니다.

할당 범위	역할
데이터 수집 프로젝트	Cloud Build 편집자(`roles/cloudbuild.builds.editor`) Cloud KMS 뷰어(`roles/cloudkms.viewer`) Composer 사용자 (`roles/composer.user`) Compute 네트워크 사용자 (`roles/compute.networkUser`) Dataflow 관리자(`roles/dataflow.admin`) 로그 뷰어 (`roles/logging.viewer`)
데이터 프로젝트	BigQuery 데이터 편집기 (`roles/bigquery.dataEditor`) BigQuery 작업 사용자 (`roles/bigquery.jobUser`) Cloud Build 편집자(`roles/cloudbuild.builds.editor`) Cloud KMS 뷰어(`roles/cloudkms.viewer`) Compute 네트워크 사용자 (`roles/compute.networkUser`) Dataflow 관리자(`roles/dataflow.admin`) DLP 관리자 (`roles/dlp.admin`) 로그 뷰어 (`roles/logging.viewer`)

네트워크 관리자 그룹

네트워크 관리자는 네트워크를 구성합니다. 네트워크 관리자는 일반적으로 네트워킹팀의 구성원입니다.

네트워크 관리자는 조직 수준에서 다음 역할이 필요합니다.

보안 관리자 그룹

보안 관리자는 액세스, 키, 방화벽 규칙, VPC 서비스 제어, Security Command Center와 같은 보안 제어를 관리합니다.

보안 관리자는 조직 수준에서 다음 역할이 필요합니다.

보안 분석가 그룹

보안 분석가는 보안 이슈 및 Sensitive Data Protection 발견 항목을 모니터링하고 대응합니다.

보안 분석가는 조직 수준에서 다음 역할이 필요합니다.

외부 소스의 그룹 액세스 흐름 예시

다음 섹션에서는 terraform-google-secured-data-warehouse-onprem-ingest 저장소를 사용하여 외부 소스에서 데이터를 가져올 때 두 그룹의 액세스 흐름을 설명합니다.

암호화된 데이터 뷰어 그룹의 액세스 흐름

다음 다이어그램은 암호화된 데이터 뷰어 그룹의 사용자가 BigQuery의 암호화된 데이터에 액세스하려고 할 때의 상황을 보여줍니다.

암호화된 데이터 뷰어 그룹의 흐름

BigQuery의 데이터에 액세스하는 단계는 다음과 같습니다.

암호화된 데이터 뷰어는 BigQuery에서 다음 쿼리를 실행하여 기밀 정보에 액세스합니다.
```
SELECT ssn, pan FROM cc_card_table
```
BigQuery는 다음과 같이 액세스를 확인합니다.
- 사용자가 유효하고 만료되지 않은 사용자 인증 정보를 사용하여 인증됩니다. Google Cloud
- 요청이 발생한 사용자 ID 및 IP 주소가 VPC 서비스 제어 경계의 액세스 수준 또는 인그레스 규칙에 있는 허용 목록에 포함되어 있습니다.
- IAM은 사용자에게 적절한 역할이 있고 BigQuery 테이블에서 선택한 암호화된 열에 액세스할 권한이 있는지 확인합니다.

BigQuery는 기밀 데이터를 암호화된 형식으로 반환합니다.

일반 텍스트 리더 그룹의 액세스 흐름

다음 다이어그램은 일반 텍스트 리더 그룹의 사용자가 BigQuery의 암호화된 데이터에 액세스하려고 할 때 어떻게 되는지 보여줍니다.

일반 텍스트 리더 그룹의 흐름

BigQuery의 데이터에 액세스하는 단계는 다음과 같습니다.

일반 텍스트 리더는 BigQuery에서 다음 쿼리를 실행하여 복호화된 형식의 기밀 데이터에 액세스합니다.
```
SELECT decrypt_ssn(ssn) FROM cc_card_table
```
BigQuery는 쿼리 내에서 복호화 사용자 정의 함수(UDF)를 호출하여 보호된 열에 액세스합니다.
액세스 권한은 다음과 같이 확인됩니다.
- IAM은 사용자에게 적절한 역할이 있고 BigQuery에서 복호화 UDF에 액세스할 권한이 있는지 확인합니다.
- UDF는 민감한 정보 열을 보호하는 데 사용된 래핑 데이터 암호화 키 (DEK)를 검색합니다.
복호화 UDF는 Cloud HSM에서 키 암호화 키(KEK)를 호출하여 DEK를 래핑 해제합니다. 복호화 UDF는 BigQuery AEAD 복호화 함수를 사용하여 민감한 정보 열을 복호화합니다.
사용자에게 민감한 정보 열의 일반 텍스트 데이터에 대한 액세스 권한이 부여됩니다.

일반적인 보안 제어

다음 섹션에서는 내부 및 외부 소스에 모두 적용되는 제어를 설명합니다.

데이터 처리 제어

데이터 웨어하우스를 만들려면 다른Google Cloud 소스 (예: 데이터 레이크), 온프레미스 환경 또는 다른 클라우드에서 데이터를 전송해야 합니다. 다음 옵션 중 하나를 사용하여 BigQuery에서 데이터를 데이터 웨어하우스에 전송할 수 있습니다.

Cloud Storage를 사용하는 일괄 작업
Pub/Sub를 사용하는 스트리밍 작업.

수집 중 데이터 보호를 위해서는 클라이언트 측 암호화, 방화벽 규칙, 액세스 수준 정책을 사용할 수 있습니다. 일부 경우에는 수집 프로세스를 추출, 변환, 로드 (ETL) 프로세스라고도 부릅니다.

네트워크 및 방화벽 규칙

Virtual Private Cloud (VPC) 방화벽 규칙은 경계로의 데이터 흐름을 제어합니다. restricted.googleapis.com 특수 도메인 이름에서의 특정 TCP 포트 443 연결을 제외하고 모든 이그레스를 거부하는 방화벽 규칙을 만듭니다. restricted.googleapis.com 도메인의 이점은 다음과 같습니다.

워크로드가 Google API 및 서비스와 통신할 때 비공개 Google 액세스를 사용해서 네트워크가 공격에 노출되는 영역을 줄이는 데 도움이 됩니다.
VPC 서비스 제어를 지원하는 서비스만 사용하도록 보장합니다.

자세한 내용은 비공개 Google 액세스 구성을 참조하세요.

terraform-google-secured-data-warehouse 저장소를 사용하는 경우 각 Dataflow 작업에 대해 개별 서브넷을 구성해야 합니다. 서브넷을 구분함으로써 익명화되는 데이터를 재식별화되는 데이터와 적절하게 분리할 수 있습니다.

데이터 파이프라인을 사용하려면 각 저장소의 dataflow_firewall.tf 파일에 정의된 대로 방화벽에서 TCP 포트를 열어야 합니다. 자세한 내용은 인터넷 액세스 및 방화벽 규칙 구성을 참고하세요.

리소스가 외부 IP 주소를 사용할 수 없도록 하려면 VM 인스턴스에 허용된 외부 IP 정의 (compute.vmExternalIpAccess) 조직 정책을 모두 거부로 설정합니다.

경계 제어

아키텍처 다이어그램에 표시된 것처럼 데이터 웨어하우스에 대한 리소스를 개별 경계에 배치합니다. 여러 다른 경계의 서비스가 데이터를 공유할 수 있게 하려면 경계 브리지를 만듭니다.

경계 브리지는 보호되는 서비스가 해당 경계 외부에서 리소스를 요청할 수 있게 해줍니다. 이러한 브리지는 terraform-google-secured-data-warehouse 저장소에 대해 다음과 같이 연결합니다.

수집 중 익명화가 수행될 수 있도록 데이터 수집 프로젝트를 거버넌스 프로젝트에 연결합니다.
데이터 분석가의 요청에 따라 기밀 데이터를 재식별화할 수 있도록 비기밀 데이터 프로젝트와 기밀 데이터 프로젝트를 연결합니다.
데이터 분석가의 요청에 따라 재식별화를 수행할 수 있도록 기밀 프로젝트를 데이터 거버넌스 프로젝트에 연결합니다.

이러한 브리지는 terraform-google-secured-data-warehouse-onprem-ingest 저장소에 대해 다음 연결을 만듭니다.

데이터를 BigQuery로 수집할 수 있도록 데이터 수집 프로젝트를 데이터 프로젝트에 연결합니다.
Sensitive Data Protection이 BigQuery의 보호되지 않는 기밀 데이터를 스캔할 수 있도록 데이터 프로젝트를 데이터 거버넌스 프로젝트에 연결합니다.
로깅, 모니터링, 암호화 키에 액세스하기 위해 데이터 수집 프로젝트를 데이터 거버넌스 프로젝트에 연결합니다.

경계 브리지 외에도 이그레스 규칙을 사용하여 서비스 경계로 보호되는 리소스가 경계 외부 리소스에 액세스하도록 허용할 수 있습니다. 이 솔루션에서는 외부 프로젝트의 Cloud Storage에 있는 외부 Dataflow Flex 템플릿 작업을 가져오도록 이그레스 규칙을 구성합니다. 자세한 내용은 경계 외부 Google Cloud 리소스 액세스를 참고하세요.

액세스 정책

특정 ID(사용자 또는 서비스)만 리소스 및 데이터에 액세스할 수 있도록 IAM 그룹 및 역할을 사용 설정합니다.

특정 소스만 프로젝트에 액세스하도록 하려면 Google 조직에 대해 액세스 정책을 사용 설정합니다. 요청에 허용되는 IP 주소 범위를 지정하고 특정 사용자 또는 서비스 계정의 요청만 허용하는 액세스 정책을 만드는 것이 좋습니다. 자세한 내용은 액세스 수준 속성을 참조하세요.

서비스 계정 및 액세스 제어

서비스 계정은 사용자 대신 API 요청을 실행하기 위해 Google Cloud 사용할 수 있는 ID입니다. 서비스 계정은 사용자 ID가 서비스에 직접 액세스하지 못하게 해줍니다. 책임 분리를 허용하기 위해서는 특정 목적에 따라 여러 역할을 사용해서 서비스 계정을 만듭니다. 이러한 서비스 계정은 각 아키텍처의 data-ingestion 모듈 및 confidential-data 모듈에 정의되어 있습니다.

terraform-google-secured-data-warehouse 저장소의 서비스 계정은 다음과 같습니다.

기밀 데이터를 익명화하는 Dataflow 파이프라인에 대한 Dataflow 컨트롤러 서비스 계정
기밀 데이터를 재식별화하는 Dataflow 파이프라인에 대한 Dataflow 컨트롤러 서비스 계정
배치 파일에서 데이터를 수집하는 Cloud Storage 서비스 계정
스트리밍 서비스에서 데이터를 수집하는 Pub/Sub 서비스 계정
Dataflow 파이프라인을 만드는 일괄 Dataflow 작업을 실행하기 위한 Cloud Scheduler 서비스 계정

다음 표에서는 각 서비스 계정에 할당된 역할을 보여줍니다.

서비스 계정	이름	프로젝트	역할
Dataflow 컨트롤러 이 계정은 익명화에 사용됩니다.	`sa-dataflow-controller`	데이터 수집	BigQuery 관리자 `roles/bigquery.admin` Cloud KMS 관리자(`roles/cloudkms.admin`) Cloud KMS CryptoKey 복호화 (`roles/cloudkms.cryptoKeyDecrypter`) Compute 뷰어 (`roles/compute.viewer`) Dataflow 작업자(`roles/dataflow.worker`) DLP 관리자 (`roles/dlp.admin`) Pub/Sub 구독자(`roles/pubsub.subscriber`) 스토리지 관리자 (`roles/storage.admin`) Dataflow 서비스 에이전트 (`roles/dataflow.serviceAgent`)
Dataflow 컨트롤러 이 계정은 재식별에 사용됩니다.	`sa-dataflow-controller-reid`	기밀 데이터	BigQuery 관리자 `roles/bigquery.admin` Cloud KMS 관리자(`roles/cloudkms.admin`) Cloud KMS CryptoKey 복호화 (`roles/cloudkms.cryptoKeyDecrypter`) Compute 뷰어 (`roles/compute.viewer`) Dataflow 작업자(`roles/dataflow.worker`) DLP 관리자 (`roles/dlp.admin`) Pub/Sub 구독자(`roles/pubsub.subscriber`) 스토리지 관리자 (`roles/storage.admin`) Dataflow 서비스 에이전트 (`roles/dataflow.serviceAgent`)
Cloud Storage	`sa-storage-writer`	데이터 수집	스토리지 객체 생성자 (`roles/storage.objectCreator`) 스토리지 객체 뷰어 (`roles/storage.ObjectViewer`)
Pub/Sub	`sa-pubsub-writer`	데이터 수집	Pub/Sub 게시자(`roles/pubsub.publisher`) Pub/Sub 구독자(`roles/pubsub.subscriber`)
Cloud Scheduler	`sa-scheduler-controller`	데이터 수집	Compute 뷰어 (`roles/compute.viewer`) Dataflow 개발자 (`roles/dataflow.developer`)

terraform-google-secured-data-warehouse-onprem-ingest 저장소의 서비스 계정은 다음과 같습니다.

Cloud Storage 서비스 계정은 처리 저장소 버킷에 대한 자동 일괄 데이터 업로드 프로세스를 실행합니다.
Pub/Sub 서비스 계정을 사용하면 Pub/Sub 서비스로 데이터를 스트리밍할 수 있습니다.
Dataflow 컨트롤러 서비스 계정은 Dataflow 파이프라인이 Pub/Sub에서 BigQuery로 데이터를 변환하고 쓰는 데 사용됩니다.
Cloud Run 함수 서비스 계정은 Cloud Storage에서 BigQuery로 업로드된 후속 일괄 데이터를 씁니다.
스토리지 업로드 서비스 계정을 사용하면 ETL 파이프라인에서 객체를 만들 수 있습니다.
Pub/Sub 쓰기 서비스 계정을 사용하면 ETL 파이프라인이 Pub/Sub에 데이터를 쓸 수 있습니다.

다음 표에서는 각 서비스 계정에 할당된 역할을 보여줍니다.

이름	역할	할당 범위
Dataflow 컨트롤러 서비스 계정	BigQuery 데이터 편집기 (`roles/bigquery.dataEditor`) BigQuery 작업 사용자 (`roles/bigquery.jobUser`) Dataflow 개발자 (`roles/dataflow.developer`) Dataflow 작업자(`roles/dataflow.worker`) Pub/Sub 편집기 (`roles/pubsub.editor`) Pub/Sub 구독자(`roles/pubsub.subscriber`) 서비스 사용량 소비자 (`roles/serviceusage.serviceUsageConsumer`) 스토리지 객체 뷰어 (`roles/storage.ObjectViewer`)	데이터 수집 프로젝트
	BigQuery 데이터 편집기 (`roles/bigquery.dataEditor`) BigQuery 메타데이터 뷰어 (`roles/bigquery.metadataViewer`)	데이터 프로젝트
	DLP 검사 발견 항목 리더 (`roles/dlp.deidentifyTemplatesReader`) DLP 검사 템플릿 편집기 (`roles/dlp.inspectTemplatesReader`) DLP 사용자 (`roles/dlp.user`)	데이터 거버넌스
Cloud Run Functions 서비스 계정	BigQuery 데이터 편집기 (`roles/bigquery.dataEditor`) BigQuery 작업 사용자 (`roles/bigquery.jobUser`) Cloud Run 호출자 (`roles/run.invoker`) Eventarc 이벤트 수신자 (`roles/eventarc.eventReceiver`)	데이터 수집 프로젝트
	BigQuery 데이터 편집기 (`roles/bigquery.dataEditor`) BigQuery 메타데이터 뷰어 (`roles/bigquery.metadataViewer`)	데이터 프로젝트
Storage 업로드 서비스 계정	스토리지 객체 생성자 (`roles/storage.objectCreator`) 스토리지 객체 뷰어 (`roles/storage.ObjectViewer`)	데이터 수집 프로젝트
Pub/Sub 쓰기 서비스 계정	Pub/Sub 게시자(`roles/pubsub.publisher`) Pub/Sub 구독자(`roles/pubsub.subscriber`)	데이터 수집 프로젝트

조직 정책

이 아키텍처에는 엔터프라이즈 기반 청사진에 사용되는 조직 정책 제약조건과 몇 가지 추가적인 제약조건이 포함되어 있습니다. 엔터프라이즈 기반 청사진에 사용되는 제약조건에 대한 자세한 내용은 조직 정책 제약조건을 참고하세요.

다음 표에서는 각 저장소의 org_policies 모듈에 정의된 추가 조직 정책 제약조건을 설명합니다.

정책	제약조건 이름	권장값
특정 물리적 위치로 리소스 배포를 제한합니다. 추가 값은 값 그룹을 참고하세요.	`gcp.resourceLocations`	다음 중 하나입니다. `in:us-locations` `in:eu-locations` `in:asia-locations`
서비스 계정 생성 사용 중지	`iam.disableServiceAccountCreation`	`true`
프로젝트에 생성된 VM에 대해 OS 로그인 사용 설정	`compute.requireOsLogin`	`true`
IP 주소를 기준으로 새 전달 규칙을 내부 전용으로 제한합니다.	`compute.restrictProtocolForwardingCreationForTypes`	`INTERNAL`
Compute Engine 리소스가 사용할 수 있는 공유 VPC 서브네트워크 집합을 정의합니다.	`compute.restrictSharedVpcSubnetworks`	`projects//regions//s ubnetworks/`개 아키텍처에서 사용할 비공개 서브넷의 리소스 ID로 바꿉니다.
Cloud Logging에 대해 직렬 포트 출력 로깅을 사용 중지합니다.	`compute.disableSerialPortLogging`	`true`
CMEK 보호 필요 (`terraform-google-secured-data-warehouse-onprem-ingest`만 해당)	`gcp.restrictNonCmekServices`	`bigquery.googleapis.com`
서비스 계정 키 생성 사용 중지(`terraform-google-secured-data-warehouse-onprem-ingest only`)	`disableServiceAccountKeyCreation`	true
프로젝트에 생성된 VM에 대해 OS 로그인 사용 설정(`terraform-google-secured-data-warehouse-onprem-ingest only`)	`compute.requireOsLogin`	true
기본 서비스 계정에 대한 자동 역할 부여 사용 중지(`terraform-google-secured-data-warehouse-onprem-ingest only`)	`automaticIamGrantsForDefaultServiceAccounts`	true
허용되는 인그레스 설정 (Cloud Run 함수)(`terraform-google-secured-data-warehouse-onprem-ingest only`)	`cloudfunctions.allowedIngressSettings`	`ALLOW_INTERNAL_AND_GCLB`

외부 데이터 소스의 보안 제어

다음 섹션에서는 외부 소스에서 데이터를 처리하는 데 적용되는 제어 기능을 설명합니다.

Google Cloud에 대한 암호화된 연결

외부 소스에서 데이터를 가져올 때 Cloud VPN 또는 Cloud Interconnect를 사용하여 Google Cloud와 환경 간에 전송되는 모든 데이터를 보호할 수 있습니다. 이 엔터프라이즈 아키텍처에서는 대량의 데이터를 스트리밍하는 경우 중요한 직접 연결 및 높은 처리량을 제공하는 Dedicated Interconnect를 권장합니다.

환경에서 Google Cloud 에 대한 액세스를 허용하려면 액세스 수준 정책 규칙에 허용 목록에 추가된 IP 주소를 정의해야 합니다.

클라이언트 측 암호화

민감한 정보를 Google Cloud로 이동하기 전에 로컬에서 데이터를 암호화하여 저장 중 및 전송 중 데이터를 보호하세요. Tink 암호화 라이브러리를 사용하거나 다른 암호화 라이브러리를 사용할 수 있습니다. Tink 암호화 라이브러리는 BigQuery AEAD 암호화와 호환됩니다. 이 암호화는 데이터를 가져온 후 아키텍처에서 열 수준 암호화 데이터를 복호화하는 데 사용됩니다.

Tink 암호화 라이브러리는 로컬 또는 Cloud HSM에서 생성할 수 있는 DEK를 사용합니다. DEK를 래핑하거나 보호하려면 Cloud HSM에서 생성된 KEK를 사용하면 됩니다. KEK는 Cloud HSM에 안전하게 저장되고 IAM 역할 및 권한을 사용하여 관리되는 대칭 CMEK 암호화 키 세트입니다.

처리 중에 래핑된 DEK와 데이터가 모두 BigQuery에 저장됩니다. BigQuery에는 데이터용 테이블과 래핑된 DEK용 테이블이 두 개 포함되어 있습니다. 분석가가 기밀 정보를 확인해야 하는 경우 BigQuery는 AEAD 복호화를 사용하여 KEK로 DEK 래핑을 해제하고 보호된 열을 복호화할 수 있습니다.

또한 Tink를 사용한 클라이언트 측 암호화는 BigQuery의 민감한 정보 열을 암호화하여 데이터를 추가적으로 보호합니다. 이 아키텍처는 다음과 같은 Cloud HSM 암호화 키를 사용합니다.

Pub/Sub, 스트리밍을 위한 Dataflow 파이프라인, Cloud Storage 일괄 업로드, 후속 일괄 업로드를 위한 Cloud Run 함수 아티팩트에서도 사용되는 수집 프로세스를 위한 CMEK 키
Tink를 사용하여 네트워크에서 암호화된 데이터를 위해 Cloud HSM으로 래핑된 암호화 키
데이터 프로젝트에서 BigQuery 웨어하우스에 대한 CMEK 키

키가 저장되었고 액세스하도록 제공되는 지리적 위치를 결정하는 CMEK 위치를 지정합니다. CMEK가 리소스와 동일한 위치에 있는지 확인해야 합니다. 기본적으로 CMEK는 30일마다 순환됩니다.

조직의 규정 준수 책임에 따라 Google Cloud외부에서 자체 키를 관리해야 하는 경우 Cloud 외부 키 관리자를 사용 설정할 수 있습니다. 외부 키를 사용하는 경우 키 순환을 포함한 키 관리 활동을 수행해야 합니다.

동적 데이터 마스킹

동적 데이터 마스킹을 구성하여 데이터 액세스 정책을 대규모로 공유하고 적용할 수 있습니다. 동적 데이터 마스킹을 사용하면 기존 쿼리가 다음 기준을 사용하여 열 데이터를 자동으로 마스킹할 수 있습니다.

쿼리 런타임에서 열에 적용되는 마스킹 규칙입니다.
쿼리를 실행하는 사용자에게 할당된 역할입니다. 마스킹 해제된 열 데이터에 액세스하려면 데이터 분석가에게 세분화된 권한의 리더 역할이 있어야 합니다.

BigQuery에서 열에 대해 액세스를 정의하기 위해서는 정책 태그를 만듭니다. 예를 들어 독립형 예시에서 생성된 분류는 신용 한도와 같이 공개할 수 없는 데이터가 포함된 열에 대해 1_Sensitive 정책 태그를 만듭니다. 이러한 열에 기본 데이터 마스킹 규칙이 적용되어 열 값이 숨겨집니다.

태그가 지정되지 않은 항목은 모두 데이터 웨어하우스에 액세스할 수 있는 모든 사용자에게 제공됩니다. 이러한 액세스 제어는 데이터가 BigQuery에 기록되더라도 사용자에게 액세스 권한이 명시적으로 부여될 때까지 민감한 필드의 데이터를 읽을 수 없도록 합니다.

열 수준 암호화 및 복호화

열 수준 암호화를 사용하면 BigQuery에서 더 세분화된 수준으로 데이터를 암호화할 수 있습니다. 전체 테이블을 암호화하는 대신 BigQuery 내에서 민감한 정보가 포함된 열을 선택하면 해당 열만 암호화됩니다. BigQuery는 암호화 및 복호화 키가 포함된 키 세트를 만드는 AEAD 암호화 및 복호화 함수를 사용합니다. 그런 후 이러한 키가 테이블의 개별 값을 암호화 및 복호화하고 키 세트 내에서 키를 순환시키는 데 사용됩니다. 열 수준 암호화는 BigQuery의 암호화된 데이터에 대한 이중 액세스 제어를 제공합니다. 데이터를 일반 텍스트로 읽으려면 사용자에게 테이블과 암호화 키 모두에 대한 권한이 있어야 하기 때문입니다.

민감한 정보 보호가 적용된 BigQuery용 데이터 프로파일러

데이터 프로파일러를 사용하면 BigQuery 테이블에서 민감하고 위험성이 높은 데이터의 위치를 식별할 수 있습니다. 데이터 프로파일러는 모든 폴더와 프로젝트를 포함하여 전체 조직의 모든 BigQuery 테이블과 열을 자동으로 스캔하고 분석합니다. 그러면 데이터 프로파일러는 예측된 infoTypes, 평가된 데이터 위험 및 민감도 수준, 테이블에 대한 메타데이터와 같은 측정항목을 출력합니다. 이러한 통계를 사용하여 데이터의 보호, 공유, 사용 방식에 대해 정보에 입각한 결정을 내릴 수 있습니다.

내부 데이터 소스를 위한 보안 제어

다음 섹션에서는Google Cloud 소스에서 데이터를 처리하는 데 적용되는 제어 기능을 설명합니다.

수집에 대한 키 관리 및 암호화

두 수집 옵션 (Cloud Storage 또는 Pub/Sub) 모두 Cloud HSM을 사용하여 CMEK를 관리합니다. 수집 중 데이터 보호를 위해 CMEK 키를 사용합니다. Sensitive Data Protection은 구성된 감지기를 사용해 기밀 데이터를 암호화하여 데이터를 추가로 보호합니다.

데이터를 수집하려면 다음 암호화 키를 사용합니다.

Dataflow 파이프라인 및 Pub/Sub 서비스에도 사용되는 수집 프로세스를 위한 CMEK 키.
Sensitive Data Protection을 사용하는 데이터 익명화 프로세스를 위해 Cloud HSM에서 래핑된 암호화 키
각각 비기밀 데이터 프로젝트의 BigQuery 웨어하우스 및 기밀 데이터 프로젝트의 웨어하우스를 위한 2개의 CMEK 키 자세한 내용은 키 관리를 참조하세요.

조직의 규정 준수 책임에 따라 Google Cloud외부에서 자체 키를 관리해야 하는 경우 Cloud EKM을 사용 설정할 수 있습니다. 외부 키를 사용하는 경우 키 순환을 포함한 키 관리 활동을 수행해야 합니다.

데이터 익명화

Sensitive Data Protection을 사용하여 수집 단계 중 구조화된 데이터 및 구조화되지 않은 데이터를 익명화합니다. 구조화된 데이터의 경우 필드 기반의 레코드 변환을 사용하여 데이터를 익명화합니다. 이 접근 방식의 예는 /examples/de_identification_template/ 폴더를 참고하세요. 이 예시는 구조화된 데이터에서 신용카드 번호 및 카드 PIN을 확인합니다. 비정형 데이터의 경우 정보 유형을 사용하여 데이터를 익명화합니다.

기밀로 태그 지정된 데이터를 익명화하기 위해서는 Sensitive Data Protection 및 Dataflow 파이프라인을 사용해서 이를 토큰화합니다. 이 파이프라인은 Cloud Storage에서 데이터를 가져오고, 이를 처리한 후 BigQuery 데이터 웨어하우스로 전송합니다.

데이터 익명화 프로세스에 대한 자세한 내용은 데이터 거버넌스를 참조하세요.

열 수준 액세스 제어

기밀 데이터 보호를 위해 BigQuery에서 특정 열에 대한 액세스 제어를 사용합니다. 이러한 열의 데이터에 액세스하려면 데이터 분석가에게 세분화된 권한의 리더 역할이 있어야 합니다.

BigQuery에서 열에 대한 액세스를 정의하려면 정책 태그를 만듭니다. 예를 들어 bigquery-confidential-data 예시 모듈의 taxonomy.tf 파일은 다음 태그를 만듭니다.

신용카드 번호와 같은 매우 민감한 정보가 포함된 열에 대한 3_Confidential 정책 태그. 이 태그에 액세스할 수 있는 사용자는 2_Private 또는 1_Sensitive 정책 태그로 태그 지정된 열에도 액세스할 수 있습니다.
사용자의 이름과 같은 민감한 개인 식별 정보 (PII)가 포함된 열에 대한 2_Private 정책 태그. 이 태그에 액세스할 수 있는 사용자는 1_Sensitive 정책 태그로 태그 지정된 열에도 액세스할 수 있습니다. 3_Confidential 정책 태그로 태그 지정된 열에는 액세스할 수 없습니다.
신용 한도와 같이 공개할 수 없는 데이터가 포함된 열에 대한 1_Sensitive 정책 태그. 이 태그에 액세스할 수 있는 사용자는 2_Private 또는 3_Confidential 정책 태그로 태그 지정된 열에 액세스할 수 없습니다.

태그 지정되지 않은 항목은 모두 데이터 웨어하우스에 액세스할 수 있는 모든 사용자에게 제공됩니다.

이러한 액세스 제어는 데이터가 재식별화된 후에도 사용자에게 액세스 권한이 명시적으로 부여되지 않는 한 데이터를 읽을 수 없도록 보장합니다.

참고: 기본 정의를 사용하여 예시를 실행할 수 있습니다. 추가 권장사항은 BigQuery에서 정책 태그 사용을 위한 권장사항을 참고하세요.

제한된 역할을 포함하는 서비스 계정

승인된 사용자만 기밀 데이터를 볼 수 있도록 기밀 데이터 프로젝트에 대해 액세스를 제한해야 합니다. 이렇게 하려면 승인된 사용자가 가장해야 하는 서비스 계정 사용자 (roles/iam.serviceAccountUser) 역할로 서비스 계정을 만듭니다. 서비스 계정 가장은 사용자가 서비스 계정 키를 다운로드하지 않아도 서비스 계정을 사용할 수 있게 함으로써 프로젝트의 전반적인 보안 수준을 향상시켜 줍니다. 가장은 서비스 계정 토큰 생성자 (roles/iam.serviceAccountTokenCreator) 역할이 있는 승인된 사용자가 다운로드할 수 있는 단기 토큰을 만듭니다.

스토리지 및 재식별화를 위한 키 관리 및 암호화

데이터를 재식별화할 수 있도록 기밀 데이터에 대해 CMEK 키를 개별적으로 관리합니다. Cloud HSM을 사용하여 키를 보호합니다. 데이터를 재식별화하려면 다음 키를 사용합니다.

재식별화 프로세스를 위해 Dataflow 파이프라인에 사용되는 CMEK 키
Sensitive Data Protection에서 데이터 익명화를 위해 사용하는 원래 암호화 키
기밀 데이터 프로젝트에서 BigQuery 웨어하우스에 대한 CMEK 키

수집을 위한 키 관리 및 암호화에서 설명한 것처럼 CMEK 위치 및 순환 기간을 지정할 수 있습니다. 조직에 필요한 경우 Cloud EKM을 사용할 수 있습니다.

운영

Security Health Analytics 및 Event Threat Detection과 같은 로깅 및 Security Command Center Premium 또는 Enterprise 등급 기능을 사용 설정할 수 있습니다. 이러한 제어는 다음을 수행하는 데 도움이 됩니다.

데이터에 액세스할 수 있는 사용자를 모니터링합니다.
적절한 감사가 설정되어 있는지 확인합니다.
구성이 잘못된 클라우드 리소스에 대한 결과 생성
이슈 관리 및 운영팀의 발생 가능한 이슈 대응 능력을 지원합니다.

액세스 투명성

액세스 투명성은 Google 직원이 사용자 데이터에 액세스해야 할 경우 실시간 알림을 제공합니다. 액세스 투명성 로그는 사람이 콘텐츠에 액세스할 때마다 생성되며, 지원 케이스와 같은 적절한 비즈니스 사유가 있는 Google 직원만 액세스 권한을 획득할 수 있습니다.

로깅

감사 요구사항을 충족시키고 프로젝트에 대한 유용한 정보를 얻기 위해서는 추적하려는 서비스에 대한 데이터 로그를 사용해서 Google Cloud Observability를 구성합니다. 저장소의 centralized-logging 모듈은 다음 권장사항을 구성합니다.

모든 프로젝트 간에 집계된 로그 싱크를 만듭니다.
적절한 리전에 로그를 저장합니다.
로깅 싱크에 CMEK 키를 추가합니다.

프로젝트 내의 모든 서비스에 대해서 로그에는 데이터 읽기 및 쓰기에 대한 정보 및 관리자가 읽은 항목에 대한 정보가 포함되어야 합니다. 추가 로깅 권장사항은 감지 제어를 참고하세요.

알림 및 모니터링

아키텍처를 배포한 후에는 보안 이슈가 발생할 수 있음을 보안 운영 센터 (SOC)에 알릴 수 있도록 알림을 설정할 수 있습니다. 예를 들어 알림을 사용하여 IAM 권한이 변경되었을 때 이를 보안 분석가에게 알려줄 수 있습니다. Security Command Center 알림 구성에 대한 자세한 내용은 발견 항목 알림 설정을 참고하세요. Security Command Center에서 게시되지 않는 추가 알림은 Cloud Monitoring을 사용해서 알림을 설정합니다.

추가 보안 고려사항

이 문서에 설명된 보안 제어 외에도 이 솔루션 사용과 겹치고 상호작용하는 핵심 영역에서 보안 및 위험을 검토하고 관리해야 합니다. 예를 들면 다음과 같습니다.

Dataflow 작업 및 Cloud Run 함수를 구성, 배포, 실행하는 데 사용하는 코드의 보안
이 솔루션에 사용되는 데이터 분류 용어
암호화 키의 생성 및 관리
데이터 웨어하우스에서 저장 및 분석하는 데이터 세트의 콘텐츠, 품질, 보안
다음을 포함하여 솔루션을 배포하는 전체 환경
- 이 솔루션에 연결하는 네트워크의 설계, 세분화, 보안
- 조직의 IAM 제어에 대한 보안 및 거버넌스
- 이 솔루션에 속하는 인프라에 대해 액세스 권한을 부여하는 작업자 및 해당 인프라에서 저장 및 관리되는 데이터에 액세스 권한이 있는 사용자에 대한 인증 및 승인 설정

총정리

이 문서에 설명된 아키텍처를 구현하려면 다음을 수행합니다.

엔터프라이즈 기반 청사진을 사용하거나 자체적으로 아키텍처를 배포할지 여부를 결정합니다. 엔터프라이즈 기반 청사진을 배포하지 않기로 한 경우에는 해당 환경에 비슷한 보안 기준이 설정되어 있어야 합니다.
외부 소스에서 데이터를 가져오려면 네트워크에 Dedicated Interconnect 연결을 설정하세요.
terraform-google-secured-data-warehouse 리드미 또는 terraform-google-secured-data-warehouse-onprem-ingest 리드미를 검토하고 모든 기본 요건을 충족해야 합니다.
조직 구조에 설명된 대로 사용자 ID에 조직의 개발 폴더에 대한 서비스 계정 사용자(roles/iam.serviceAccountUser) 및 서비스 계정 토큰 생성자 서비스 계정 토큰 생성자(roles/iam.serviceAccountTokenCreator) 역할이 있는지 확인합니다. 테스트에 사용할 폴더가 없는 경우 폴더를 만들고 액세스를 구성합니다.
결제 계정 ID, 조직의 표시 이름, 테스트 또는 데모 폴더의 폴더 ID, 다음 사용자 그룹의 이메일 주소를 기록합니다.
- 데이터 분석가
- 암호화된 데이터 뷰어
- 일반 텍스트 리더
- 데이터 엔지니어
- 네트워크 관리자
- 보안 관리자
- 보안 분석가
프로젝트를 만듭니다. 사용 설정해야 하는 API 목록은 리드미를 참고하세요.
Terraform용 서비스 계정을 만들고 모든 프로젝트에 적절한 역할을 할당합니다.
액세스 제어 정책을 설정합니다.
Google Cloud terraform-google-secured-data-warehouse 저장소를 사용하는 데이터 소스의 경우 테스트 환경에서 둘러보기를 배포하여 솔루션이 작동하는 모습을 확인합니다. 테스트 프로세스 중 다음을 고려합니다.
1. BigQuery 웨어하우스에 자체 샘플 데이터를 추가합니다.
2. 기업 내 데이터 분석가와 협력하여 기밀 데이터에 대한 액세스 권한을 테스트하고 예상한 방식으로 BigQuery 데이터와 상호작용할 수 있는지 여부를 확인합니다.
terraform-google-secured-data-warehouse-onprem-ingest 저장소를 사용하는 외부 데이터 소스의 경우 테스트 환경에서 솔루션을 배포합니다.
1. Terraform 스크립트를 클론하고 실행하여Google Cloud에서 환경을 설정합니다.
2. 네트워크에 Tink 암호화 라이브러리를 설치합니다.
3. 네트워크에서 Tink 라이브러리를 실행할 수 있도록 애플리케이션 기본 사용자 인증 정보를 설정합니다.
4. Cloud KMS로 암호화 키를 만듭니다.
5. Tink를 사용하여 암호화된 키 집합을 생성합니다.
6. 다음 방법 중 하나를 사용하여 Tink로 데이터를 암호화합니다.
  - 결정적 암호화를 사용합니다.
  - 샘플 데이터가 포함된 도우미 스크립트를 사용합니다.
7. 스트리밍 또는 일괄 업로드를 사용하여 암호화된 데이터를 BigQuery에 업로드합니다.
외부 데이터 소스의 경우 승인된 사용자가 BigQuery AEAD 복호화 함수를 사용하여 BigQuery에서 암호화되지 않은 데이터를 읽을 수 있는지 확인합니다. 예를 들어 다음 복호화 함수 만들기를 실행합니다.

뷰 생성 쿼리를 실행합니다.
```
CREATE OR REPLACE VIEW `{project_id}.{bigquery_dataset}.decryption_view` AS

SELECT
 Card_Type_Code,
 Issuing_Bank,
 Card_Number,
 `bigquery_dataset.decrypt`(Card_Number) AS Card_Number_Decrypted
FROM `project_id.dataset.table_name`
```
뷰에서 선택 쿼리를 실행합니다.
```
SELECT
  Card_Type_Code,
  Issuing_Bank,
  Card_Number,
  Card_Number_Decrypted
FROM
`{project_id}.{bigquery_dataset}.decrypted_view`
```
추가 쿼리 및 사용 사례는 Cloud KMS를 사용한 열 수준 암호화를 참고하세요.
Security Command Center를 사용하여 규정 준수 요구사항에 따라 새로 생성된 프로젝트를 스캔합니다.
프로덕션 환경에 아키텍처를 배포합니다.

다음 단계

기준 보안 환경에 대한 엔터프라이즈 기반 청사진을 검토하세요.
아키텍처의 세부정보를 보려면 내부 데이터 소스 (terraform-google-secured-data-warehouse 저장소)의 경우 Terraform 구성 리드미를 읽거나 외부 데이터 소스(terraform-google-secured-data-warehouse-onprem-ingest 저장소)의 경우 Terraform 구성 리드미를 읽으세요.

보안 BigQuery 데이터 웨어하우스로 데이터 가져오기 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.