이 튜토리얼에서는 Cloud DLP용 Cloud Data Fusion 플러그인을 사용하여 민감한 정보를 수정하는 방법을 설명합니다.
시나리오
민감한 고객 정보를 수정해야 하는 다음 시나리오를 고려해 보세요.
지원팀에서 지원 티켓으로 처리하는 각 지원 케이스의 세부정보를 문서화합니다. 지원 티켓의 모든 정보를 CSV 파일로 가져옵니다. 지원 기술자는 민감하다고 간주되는 고객 정보를 문서화해서는 안 되지만 실수로 문서화할 때가 있습니다. CSV 파일에 일부 고객의 전화번호가 있는 것을 알게 되었습니다.
CSV 파일을 살펴보고 모든 전화번호를 숨기려 합니다. Cloud DLP 플러그인을 사용하여 민감한 고객 데이터를 수정하는 Cloud Data Fusion 파이프라인을 만듭니다.
이 튜토리얼에서는 다음 작업을 수행하는 파이프라인을 만듭니다.
- 고객 전화번호를
#
문자로 마스킹하여 수정합니다. - 마스킹된 민감한 정보와 민감하지 않은 정보를 Cloud Storage 버킷에 저장합니다.
목표
- Cloud Data Fusion을 Cloud Storage 소스에 연결합니다.
- Cloud DLP 플러그인을 배포합니다.
- 커스텀 Cloud DLP 템플릿을 만듭니다.
- 수정 변환 플러그인을 사용하여 민감한 고객 데이터를 마스킹합니다.
- 출력 데이터를 Cloud Storage에 씁니다.
비용
이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
시작하기 전에
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
- Cloud Data Fusion 인스턴스를 만듭니다.
Cloud DLP 권한 가져오기
Google Cloud 콘솔에서 IAM 페이지로 이동합니다.
권한 테이블의 주 구성원 열에서
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
형식과 일치하는 서비스 계정을 찾습니다.edit 수정을 클릭합니다.
다른 역할 추가를 클릭합니다.
검색창을 사용하여 검색한 후 DLP 관리자를 선택합니다.
저장을 클릭합니다.
DLP 관리자가 역할 열에 표시되는지 확인합니다.
Cloud Data Fusion UI로 이동
Cloud Data Fusion을 사용할 때는 Google Cloud 콘솔과 별도의 Cloud Data Fusion UI를 모두 사용합니다. Google Cloud 콘솔에서 Google Cloud 콘솔 프로젝트를 만들고 Cloud Data Fusion 인스턴스를 만들고 삭제할 수 있습니다. Cloud Data Fusion UI에서는 스튜디오 또는 Wrangler와 같은 다양한 페이지를 통해 Cloud Data Fusion 기능을 사용할 수 있습니다.
Google Cloud 콘솔에서 인스턴스 페이지를 엽니다.
인스턴스의 작업 열에서 인스턴스 보기 링크를 클릭합니다. Cloud Data Fusion UI가 새 브라우저 탭에서 열립니다.
파이프라인 만들기
민감한 고객 데이터를 수정하는 파이프라인을 만듭니다. 빌드한 파이프라인은 다음 작업을 수행합니다.
- Cloud Storage 소스 플러그인을 사용하여 입력 데이터를 읽습니다.
- 허브에서 Cloud DLP 플러그인을 배포합니다.
- Cloud Storage 싱크 플러그인을 사용하여 출력 데이터를 씁니다.
고객 데이터 로드
이 튜토리얼에서는 공개적으로 사용 가능한 Cloud Storage 버킷에 제공된 입력 데이터 세트 CallCenterRecords.csv
를 사용합니다.
Cloud Data Fusion 인스턴스를 열고 menu 메뉴 > 스튜디오를 클릭합니다.
소스 메뉴에서 Cloud Storage 플러그인을 클릭합니다.
Cloud Storage 노드에서 속성을 클릭합니다.
참조 이름 필드에 이름을 입력합니다.
경로 필드에
gs://datafusion-sample-datasets/CallCenterRecords.csv
를 입력합니다.형식 필드에서
CSV
를 선택합니다.출력 스키마에 대해 오프셋 및 본문 필드를 삭제합니다.
추가를 클릭하고 다음 필드를 입력합니다.- 날짜
- 은행
- 주
- 우편번호
- 참고
검증을 클릭하여 오류가 있는지 확인합니다.
닫기를 클릭합니다.
민감한 정보 수정
Cloud DLP Redact 플러그인은 데이터 입력 스트림에서 민감한 레코드를 식별하고 정의한 변환을 이 레코드에 적용합니다. 선택한 사전 정의된 Cloud DLP 필터 또는 정의한 커스텀 템플릿과 일치하는 데이터 레코드는 민감한 레코드로 간주됩니다.
이 튜토리얼에서는 팀의 지원 기술자가 실수로 기록한 고객 전화번호를 수정하려 합니다. 지원 티켓의 참고 섹션에 민감한 정보를 입력합니다. 이 정보는 CSV 파일의 참고 열에 표시됩니다. 커스텀 Cloud DLP 템플릿을 만든 후 플러그인의 속성 메뉴에 템플릿 ID를 제공합니다.
Cloud DLP 플러그인 배포
Cloud Data Fusion 인스턴스에서 허브를 클릭합니다.
Cloud DLP 플러그인을 클릭합니다.
배포를 클릭합니다.
마침을 클릭합니다.
닫기를 클릭하여 Cloud DLP 대화상자를 종료합니다.
닫기를 클릭하여 허브를 종료합니다.
커스텀 템플릿 만들기
Google Cloud 콘솔에서 Cloud DLP 페이지로 이동합니다.
만들기 메뉴에서 템플릿을 선택합니다.
템플릿 ID 필드에서 템플릿 ID를 입력합니다.
계속을 클릭합니다.
감지 구성 필드에서 infoType 관리를 클릭합니다.
기본 제공 탭에서 필터를 사용하여 '전화번호'를 검색합니다.
PHONE_NUMBER를 선택합니다.
완료 > 만들기를 클릭합니다.
Cloud DLP 템플릿 만들기에 대해 자세히 알아보세요.
Cloud DLP 수정 변환 적용
Cloud Data Fusion Studio 페이지로 이동하고 변환 메뉴를 클릭하여 펼칩니다.
Cloud DLP 수정 플러그인을 클릭합니다.
연결 화살표를 Cloud Storage 노드에서 수정 노드로 드래그합니다.
수정 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.
커스텀 템플릿을
Yes
로 설정합니다.템플릿 ID 필드에서 만든 커스텀 템플릿의 템플릿 ID를 입력합니다.
일치 필드의 참고에 있는 커스텀 템플릿에 마스킹을 적용합니다.
문자 마스킹 필드에
#
을 입력합니다.검증을 클릭하여 오류가 있는지 확인합니다.
닫기를 클릭합니다.
출력 데이터 저장
파이프라인 결과를 Cloud Storage 파일에 저장합니다.
스튜디오 페이지에서 싱크 메뉴를 클릭하여 펼칩니다.
Cloud Storage를 클릭합니다.
연결 화살표를 수정 노드에서 Cloud Storage2 노드로 드래그합니다.
Cloud Storage2 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.
참조 이름 필드에 이름을 입력합니다.
경로 필드에서 파이프라인 결과를 저장할 Cloud Storage 버킷의 경로를 입력합니다. Cloud Data Fusion에서 버킷을 자동으로 만듭니다. 버킷 이름 지정 가이드라인을 따라야 합니다.
형식 필드에서 CSV를 선택합니다.
검증을 클릭하여 오류가 없는지 확인합니다.
닫기를 클릭합니다.
미리보기 모드에서 파이프라인 실행
배포하기 전에 미리보기 모드에서 파이프라인을 실행합니다.
미리보기를 클릭한 후 실행을 클릭합니다.
실행을 클릭하면 파이프라인 상태가 표시됩니다. 파이프라인 상태는 시작으로 시작하여 중지, 실행 순으로 바뀝니다.
미리보기 실행이 완료되면 수정 노드에서 데이터 미리보기를 클릭하여 입력 데이터와 출력 데이터를 나란히 비교할 수 있습니다. 전화번호가
#
문자로 마스킹되었는지 확인합니다.
다른 데이터 유형 수정
미리보기 실행 결과를 검토하는 동안 참고 열에 민감한 정보인 이메일 주소가 여전히 있는 것을 알게 되었습니다. 돌아가서 Cloud DLP 템플릿을 수정하여 이메일 주소도 수정합니다.
Google Cloud 콘솔에서 Cloud DLP 페이지로 이동합니다.
구성 탭에서 템플릿을 선택합니다.
수정을 클릭합니다.
infoType 관리를 클릭합니다.
기본 제공 탭에서 필터를 사용하여 'OR' '이메일 주소'를 검색합니다.
모두를 선택하고 완료를 클릭합니다.
저장을 클릭합니다.
다시 한 번 미리보기 모드에서 파이프라인을 실행합니다. Cloud Data Fusion은 업데이트된 Cloud DLP 템플릿을 자동으로 사용합니다.
전화번호 및 이메일 주소 모두
#
문자로 마스킹되었는지 확인합니다.
파이프라인 배포 및 실행
미리보기 모드가 선택 해제되었는지 확인합니다.
저장을 클릭합니다. 저장을 클릭하면 파이프라인의 이름을 지정하라는 메시지가 표시됩니다. 그런 다음 확인을 클릭합니다.
배포를 클릭합니다.
배포가 완료되면 실행을 클릭합니다. 파이프라인을 실행하는 데 몇 분 정도 걸릴 수 있습니다. 기다리는 동안 파이프라인 전환 상태가 프로비저닝에서 시작, 실행, 프로비저닝 해제, 성공으로 바뀌는 것을 볼 수 있습니다.
결과 보기
Google Cloud 콘솔에서 Cloud Storage 페이지로 이동합니다.
스토리지 브라우저에서 싱크 Cloud Storage 플러그인 속성에 지정한 싱크 Cloud Storage 버킷으로 이동합니다.
링크 URL에서 링크를 클릭하여 결과가 포함된 CSV 파일을 다운로드합니다. 전화번호와 이메일 주소가
#
문자로 마스킹되었는지 확인합니다.
삭제
이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.
Cloud Data Fusion 인스턴스 삭제
다음 안내에 따라 Cloud Data Fusion 인스턴스를 삭제합니다.
프로젝트 삭제
비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 프로젝트를 삭제하는 것입니다.
프로젝트를 삭제하는 방법은 다음과 같습니다.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
다음 단계
- Cloud Data Fusion 자세히 알아보기
- 수정 및 필터 PII 변환 플러그인을 제공하는 Cloud Data Fusion 플러그인 사용 방법 참조