이 페이지에서는 Sensitive Data Protection에서 Cloud Storage에 저장된 데이터의 익명화된 사본을 만드는 방법을 설명합니다. 또한 이 작업의 제한사항과 시작하기 전에 고려할 사항을 나열합니다.
Sensitive Data Protection을 사용하여 Cloud Storage 데이터의 익명화된 사본을 만드는 방법은 다음을 참조하세요.
- Google Cloud 콘솔을 사용하여 Cloud Storage에 저장된 데이터의 익명화된 사본 만들기
- API를 사용하여 Cloud Storage에 저장된 데이터의 익명화된 사본 만들기
익명화 정보
익명화는 데이터에서 식별 정보를 삭제하는 프로세스입니다. 개인 정보 보호 요구사항을 충족하면서 건강, 재무, 인구 통계 정보와 같은 개인 정보를 사용하고 공유할 수 있도록 하는 것이 목적입니다. 익명화에 대한 자세한 내용은 민감한 정보 익명화를 참조하세요.
민감한 정보 보호에서 익명화 변환에 대한 심도 깊은 내용은 변환 참조를 확인하세요. 민감한 정보 보호가 이미지에서 민감한 정보를 수정하는 방법은 이미지 검사 및 수정을 참조하세요.
이 기능을 사용해야 하는 경우
이 기능은 비즈니스 운영에 사용되는 파일에 개인 식별 정보(PII)와 같은 민감한 정보가 포함된 경우에 유용합니다. 이 기능을 사용하면 중요한 데이터 부분을 가린 상태로 유지하면서 비즈니스 프로세스에 따라 정보를 사용하고 공유할 수 있습니다.
익명화 프로세스
이 섹션에서는 민감한 정보 보호에서 Cloud Storage의 콘텐츠에 대한 익명화 프로세스에 대해 설명합니다.
이 기능을 사용하려면 Cloud Storage 파일의 익명화된 사본을 만들도록 구성된 검사 작업(DlpJob
)을 만듭니다.
민감한 정보 보호는 지정된 위치의 파일을 스캔하여 구성에 따라 검사합니다. 민감한 정보 보호는 각 파일을 검사할 때 민감한 정보 기준과 일치하는 모든 데이터를 익명화하고 해당 콘텐츠를 새 파일에 기록합니다. 새 파일은 항상 원래 파일과 동일한 파일 이름을 갖습니다.
새 파일을 지정된 출력 디렉터리에 저장합니다. 파일이 스캔에 포함되었지만 익명화 기준과 일치하는 데이터가 없고, 처리 과정 중에 오류가 없으면, 파일이 수정되지 않은 상태로 출력 디렉터리에 복사됩니다.
설정한 출력 디렉터리는 입력 파일을 포함하는 버킷과 다른 Cloud Storage 버킷에 있어야 합니다. 출력 디렉터리에서 민감한 정보 보호는 입력 디렉터리의 파일 구조와 동일하게 파일 구조를 만듭니다.
예를 들어 다음과 같이 입력 및 출력 디렉터리를 설정한다고 가정해보세요.
- 입력 디렉터리:
gs://input-bucket/folder1/folder1a
- 출력 디렉터리:
gs://output-bucket/output-directory
익명화 중 민감한 정보 보호는 gs://output-bucket/output-directory/folder1/folder1a
에 익명화된 파일을 저장합니다.
파일이 익명화된 파일과 동일한 파일 이름으로 출력 디렉터리에 있으면 파일을 덮어씁니다. 기존 파일을 덮어쓰지 않으려면 이 작업을 실행하기 전 출력 디렉터리를 변경합니다. 또는 출력 버킷에서 객체 버전 관리를 사용 설정합니다.
민감한 정보가 발견되어 익명화되었는지 여부에 관계없이 원본 파일에 대한 파일 수준 액세스 제어 목록(ACL)이 새 파일에 복사됩니다. 그러나 출력 버킷이 동일한 버킷 수준 권한으로만 구성되고 세분화된(객체 수준) 권한으로 구성되지 않은 경우 ACL이 익명화된 파일에 복사되지 않습니다.
다음 다이어그램은 Cloud Storage 버킷에 저장된 4개 파일의 익명화 프로세스를 보여줍니다. 민감한 정보 보호로 민감한 정보가 감지되는지 여부에 관계없이 각 파일이 복사됩니다. 복사되는 각 파일의 이름은 원본과 동일합니다.
가격 책정
가격 책정 정보는 스토리지 데이터 검사 및 변환을 참조하세요.
지원되는 파일 형식
민감한 정보 보호는 다음 파일 형식 그룹을 익명화할 수 있습니다.
- CSV
- 이미지
- 텍스트
- TSV
기본 익명화 동작
민감한 정보 보호에서 발견 항목을 변환하는 방법을 정의하려면 다음 파일 형식에 대해 익명화 템플릿을 제공할 수 있습니다.
- 자유 형식 텍스트가 있는 텍스트 파일과 같은 구조화되지 않은 파일
- CSV 파일과 같은 구조화된 파일
- 이미지
익명화 템플릿을 제공하지 않으면 민감한 정보 보호가 발견 항목을 다음과 같이 변환합니다.
- 구조화되지 않은 파일과 구조화된 파일에서 민감한 정보 보호는 InfoType 대체에 설명된 대로 모든 발견 항목을 해당 infoType으로 바꿉니다.
- 이미지에서 민감한 정보 보호는 모든 결과를 검은색 상자로 덮습니다.
제한사항 및 고려사항
Cloud Storage 데이터의 익명화된 사본을 만들기 전에 다음 사항을 고려하세요.
디스크 공간
이 작업은 Cloud Storage에 저장된 콘텐츠만 지원합니다.
이 작업은 민감한 정보 보호가 검사하는 각 파일의 사본을 만듭니다. 원본 콘텐츠를 수정하거나 삭제하지는 않습니다. 복사된 데이터는 원본 데이터와 거의 동일한 양의 추가 디스크 공간을 사용합니다.
스토리지에 대한 쓰기 액세스
민감한 정보 보호가 원본 파일의 사본을 만들기 때문에 프로젝트의 서비스 에이전트에 Cloud Storage 출력 버킷에 대한 쓰기 액세스가 있어야 합니다.
발견 항목 샘플링 및 한도 설정
이 작업은 샘플링을 지원하지 않습니다. 특히 민감한 정보 보호가 스캔하고 익명화하는 각 파일의 양을 제한할 수 없습니다. 즉, Cloud Data Loss Prevention API를 사용하는 경우 DlpJob
의 CloudStorageOptions
객체에 bytesLimitPerFile
및 bytesLimitPerFilePercent
를 사용할 수 없습니다.
또한 반환되는 최대 발견 항목 수를 제어할 수 없습니다.
DLP API를 사용하는 경우 DlpJob
에 FindingLimits
객체를 설정할 수 없습니다.
데이터 검사 요구사항
검사 작업을 실행할 때 민감한 정보 보호는 익명화를 수행하기 전에 먼저 검사 구성에 따라 데이터를 검사합니다. 검사 프로세스는 건너뛸 수 없습니다.
파일 확장자 사용 요구사항
민감한 정보 보호는 파일 확장자를 사용하여 입력 디렉터리에 있는 파일 형식을 식별합니다. 지원되는 파일 형식이더라도 파일 확장자가 없는 파일은 익명화되지 않을 수 있습니다.
건너뛰는 파일
스토리지의 파일을 익명화할 때 민감한 정보 보호는 다음 파일을 건너뜁니다.
- 60,000KB를 초과하는 파일. 이 한도를 초과하는 대용량 파일이 있으면 파일을 작은 단위로 나누는 것이 좋습니다.
- 지원되지 않는 파일 형식. 지원되는 파일 형식 목록은 이 페이지의 지원되는 파일 형식을 참조하세요.
- 익명화 구성에서 의도적으로 제외한 파일 형식입니다. DLP API를 사용하는 경우
DlpJob
의Deidentify
작업의file_types_to_transform
필드에서 제외한 파일 형식을 건너뜁니다. - 변환 오류가 발생한 파일
익명화된 테이블의 출력 행 순서
익명화된 테이블의 행 순서가 원본 테이블의 행 순서와 일치하지 않을 수도 있습니다. 원본 테이블을 익명화된 테이블과 비교하려는 경우 행 번호를 사용하여 해당 행을 식별할 수 없습니다. 테이블의 행을 비교하려면 고유 식별자를 사용하여 각 레코드를 식별해야 합니다.
임시 키
변환 방법으로 암호화 방법을 선택할 경우 먼저 Cloud Key Management Service를 사용하여 래핑된 키를 만들어야 합니다. 그런 후 익명화 템플릿에 이 키를 제공합니다. 임시(원시) 키는 지원되지 않습니다.
다음 단계
- DLP API를 사용하여 Cloud Storage에 저장된 민감한 정보를 익명화하는 방법을 알아보기
- Google Cloud Console을 사용하여 Cloud Storage에 저장된 민감한 정보 익명화 방법 알아보기
- Cloud Storage에서 익명화된 데이터 사본 만들기 Codelab 살펴보기
- 스토리지에서 민감한 정보를 검사하는 방법 알아보기