이 문서에서는 조직의 데이터 위험을 평가하고 완화하기 위한 전략을 제공합니다. 또한 현재 데이터 보안 상태에 대해 자세히 알아볼 수 있는 두 가지 Sensitive Data Protection 서비스에 대해 설명하고 비교합니다.
데이터 위험 관리의 목표
데이터 위험을 관리하려면 비즈니스에 적절한 위험 수준 내에서 데이터를 저장, 처리, 사용하는 것이 필요합니다. 데이터 위험 관리를 수행할 때, 다음과 같은 목표를 달성하려고 노력하는 것이 좋습니다.
- 데이터가 올바르게 검색되고 분류됩니다.
- 데이터 노출 위험을 올바르게 이해합니다.
- 데이터가 적절한 제어 조치로 보호되거나 난독화를 통해 위험이 제거됩니다.
데이터 워크로드를 평가할 때 다음과 같은 질문으로 시작할 수 있습니다.
- 이 워크로드가 처리하는 데이터 종류는 무엇이며 그 중 민감한 정보가 있나요?
- 이 데이터가 적절하게 노출되나요? 예를 들어 데이터 액세스가 적절한 환경에서 적절한 사용자에게 승인된 목적으로 제한되나요?
- 데이터 수집 최소화 및 난독화 전략을 통해 이 데이터의 위험을 줄일 수 있나요?
충분한 정보를 바탕으로 위험 기반 접근 방식을 사용하면 사용자의 개인 정보를 침해하지 않고도 데이터를 최대한 활용할 수 있습니다.
분석 예시
이 예에서는 데이터팀이 제품 리뷰의 고객 의견을 기반으로 머신러닝 모델을 빌드하려고 한다고 가정해 보겠습니다.
이 워크로드가 처리하는 데이터 종류는 무엇이며 그 중 민감한 정보가 있나요?
데이터 워크로드에서 사용된 기본 키가 고객 이메일 주소인 것으로 확인되었습니다. 고객 이메일 주소에는 고객 이름이 포함되는 경우가 많습니다. 또한 실제 제품 리뷰에는 고객이 제출한 구조화되지 않은 데이터(또는 자유 형식 데이터)가 포함됩니다. 비정형 데이터에는 전화번호, 주소와 같은 민감한 정보의 간헐적인 인스턴스가 포함될 수 있습니다.
이 데이터가 적절하게 노출되나요?
제품팀만 데이터에 액세스할 수 있는 것으로 확인되었습니다. 하지만 데이터 분석팀에서 머신러닝 모델을 빌드하는 데 사용할 수 있도록 데이터를 공유하려고 합니다. 데이터를 더 많은 사람들에게 노출시키는 것은 이 데이터가 저장되고 처리될 더 많은 개발 환경에 노출시킨다는 것을 의미합니다. 노출 위험이 증가할 것으로 판단했습니다.
데이터 수집 최소화 및 난독화 전략을 통해 이 데이터의 위험을 줄일 수 있나요?
분석팀은 데이터 세트의 실제 민감한 개인 식별 정보(PII)는 필요로 하지 않습니다. 하지만 고객별로 데이터를 집계해야 합니다. 동일한 고객의 리뷰를 파악할 방법이 필요합니다. 이 문제를 해결하기 위해 데이터의 참조 무결성을 유지하기 위해 고객 이메일 주소와 같은 모든 구조화된 PII를 토큰화하기로 결정합니다. 또한 구조화되지 않은 데이터인 리뷰를 검사하고 그 안에 있는 간헐적인 민감한 정보를 마스킹하기로 결정합니다.
다음 단계
- 데이터에 대해 알아보는 데 도움이 되는 Sensitive Data Protection 서비스 비교(이 시리즈의 다음 문서)