기밀 데이터 수정

이 튜토리얼에서는 Cloud DLP용 Cloud Data Fusion 플러그인을 사용하여 민감한 정보를 수정하는 방법을 설명합니다.

시나리오

민감한 고객 정보를 수정해야 하는 다음 상황을 가정해 보겠습니다.

지원팀에서 지원 티켓으로 처리하는 각 지원 케이스의 세부정보를 문서화합니다. 지원 티켓의 모든 정보를 CSV 파일로 가져옵니다. 지원 기술자는 민감하다고 간주되는 고객 정보를 문서화해서는 안 되지만 실수로 문서화할 때가 있습니다. CSV 파일에 일부 고객의 전화번호가 있는 것을 알게 되었습니다.

CSV 파일을 살펴보고 모든 전화번호를 숨기려 합니다. Cloud DLP 플러그인을 사용하여 민감한 고객 정보를 수정하는 Cloud Data Fusion 파이프라인을 만듭니다.

이 튜토리얼에서는 다음 작업을 수행하는 파이프라인을 만듭니다.

  • 고객 전화번호를 # 문자로 마스킹하여 수정합니다.
  • 마스킹된 민감한 정보와 민감하지 않은 정보를 Cloud Storage 버킷에 저장합니다.

목표

  • Cloud Data Fusion을 Cloud Storage 소스에 연결합니다.
  • Cloud DLP 플러그인을 배포합니다.
  • 커스텀 Cloud DLP 템플릿을 만듭니다.
  • 수정 변환 플러그인을 사용하여 민감한 고객 정보를 마스킹합니다.
  • 출력 데이터를 Cloud Storage에 씁니다.

비용

이 튜토리얼에서는 다음과 같은 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다.

가격 계산기를 사용하면 예상 사용량을 기준으로 예상 비용을 산출할 수 있습니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. Cloud Data Fusion, Cloud Storage, BigQuery, and Cloud Dataproc API를 사용 설정합니다.

    API 사용 설정

  5. Cloud Data Fusion 인스턴스를 만듭니다.

Cloud DLP 권한 가져오기

  1. Cloud Console에서 IAM 페이지로 이동합니다.

    IAM 페이지 열기

  2. 권한 테이블의 구성원 열에서 service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com 형식과 일치하는 서비스 계정을 찾습니다.

  3. 서비스 계정 오른쪽에 있는 수정 버튼을 클릭합니다.

  4. 다른 역할 추가를 클릭합니다.

  5. 표시되는 드롭다운을 클릭합니다.

  6. 검색창을 사용하여 검색한 후 DLP 관리자를 선택합니다.

  7. 저장을 클릭합니다.

  8. DLP 관리자역할 열에 표시되는지 확인합니다.

Cloud Data Fusion을 사용할 때는 Cloud Console과 별도의 Cloud Data Fusion UI를 모두 사용합니다. Cloud Console에서는 Cloud Console 프로젝트를 만들고, Cloud Data Fusion 인스턴스를 만들고 삭제할 수 있습니다. Cloud Data Fusion UI에서는 스튜디오 또는 랭글러와 같은 다양한 페이지를 통해 Cloud Data Fusion 기능을 사용할 수 있습니다.

  1. Cloud Console에서 인스턴스 페이지를 엽니다.

    인스턴스 페이지 열기

  2. 인스턴스의 작업 열에서 인스턴스 보기 링크를 클릭합니다. Cloud Data Fusion UI가 새 브라우저 탭에서 열립니다.

파이프라인 만들기

민감한 고객 정보를 수정하는 파이프라인을 만듭니다. 빌드한 파이프라인은 다음 작업을 수행합니다.

  • Cloud Storage 소스 플러그인을 사용하여 입력 데이터를 읽습니다.
  • 허브에서 Cloud DLP 플러그인을 배포하고 수정 변환 플러그인을 적용합니다.
  • Cloud Storage 싱크 플러그인을 사용하여 출력 데이터를 씁니다.

고객 데이터 로드

이 튜토리얼에서는 공개적으로 사용 가능한 Cloud Storage 버킷에 제공된 입력 데이터 세트 CallCenterRecords.csv를 사용합니다.

  1. Cloud Data Fusion UI에서 메뉴 를 클릭하고 스튜디오 페이지로 이동합니다.

  2. 소스 메뉴에서 GCS 플러그인을 클릭합니다.

    이미지

  3. 표시되는 GCS 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.

  4. 참조 이름에 참조 이름을 입력합니다.

  5. 경로gs://datafusion-sample-datasets/CallCenterRecords.csv를 입력합니다.

  6. 형식CSV를 선택합니다.

  7. 출력 스키마이름에서 데이터 유형마다 추가 버튼을 클릭하여 다음을 입력합니다.

    • 날짜
    • 은행
    • 우편번호
    • 참고
  8. 데이터 유형은 모두 문자열 유형이어야 합니다. 데이터 유형을 변경하려면 유형을 클릭하고 드롭다운에서 문자열을 선택합니다.

  9. 데이터 유형마다 Null 체크박스를 선택합니다. 이렇게 하면 파이프라인이 null(빈 값)을 발견할 때 실패하지 않습니다.

    이미지

  10. 검사를 클릭하여 오류가 없는지 확인합니다.

  11. 대화상자의 오른쪽 상단 모서리에 있는 X 버튼을 클릭합니다.

민감한 정보 수정

수정 변환 플러그인은 데이터 입력 스트림에서 민감한 레코드를 식별하고 정의한 변환을 이 레코드에 적용합니다. 선택한 사전 정의된 Cloud DLP 필터 또는 정의한 커스텀 템플릿과 일치하는 데이터 레코드는 민감한 레코드로 간주됩니다.

이 튜토리얼에서는 팀의 지원 기술자가 실수로 기록한 고객 전화번호를 수정하려 합니다. 지원 티켓의 참고 섹션에 민감한 정보를 입력합니다. 이 정보는 CSV 파일의 참고 열에 표시됩니다. 커스텀 Cloud DLP 템플릿을 만든 후 수정 변환 플러그인의 속성 메뉴에 템플릿 ID를 제공합니다.

Cloud DLP 플러그인 배포

  1. Cloud Data Fusion UI의 오른쪽 상단에 있는 허브를 클릭합니다.

  2. 데이터 손실 방지 플러그인을 클릭합니다.

  3. 배포를 클릭합니다.

  4. 마침을 클릭합니다.

  5. Cloud DLP | 배포 대화상자 오른쪽 상단 모서리에 있는 X 버튼을 클릭합니다.

  6. X 버튼을 클릭하여 허브를 종료합니다.

커스텀 템플릿 만들기

  1. Cloud Console에서 Cloud DLP를 엽니다.

    Cloud DLP 페이지 열기

  2. 만들기 메뉴에서 템플릿을 선택합니다. 이미지

  3. 템플릿 정의템플릿 ID 필드에 템플릿 ID를 입력합니다. 이 템플릿 ID는 이 튜토리얼의 뒷부분에서 필요합니다.

  4. 계속을 클릭합니다.

  5. 감지 구성에서 infoType 관리를 클릭합니다.

  6. 기본 제공 탭에서 필터를 사용하여 '전화번호'를 검색합니다.

    이미지

  7. PHONE_NUMBER를 선택합니다.

  8. 완료를 클릭합니다.

  9. 만들기를 클릭합니다.

Cloud DLP 템플릿 만들기에 대해 자세히 알아보세요.

수정 변환 적용

  1. Cloud Data Fusion UI로 돌아가 스튜디오 페이지에서 변환 메뉴를 클릭하여 펼칩니다.

  2. 수정 변환 플러그인을 클릭합니다.

    이미지

  3. 연결 화살표를 GCS 노드에서 수정 노드로 드래그합니다.

    이미지

  4. 수정 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.

    1. 커스텀 템플릿로 설정합니다.

    2. 템플릿 ID에서 만든 커스텀 템플릿의 템플릿 ID를 입력합니다.

    3. 일치참고에 있는 커스텀 템플릿마스킹을 적용합니다.

    4. 문자 마스킹#을 입력합니다.

      이미지

    5. 검사를 클릭하여 오류가 없는지 확인합니다.

    6. 대화상자의 오른쪽 상단 모서리에 있는 X 버튼을 클릭합니다.

출력 데이터 저장

파이프라인 결과를 Cloud Storage 파일에 저장합니다.

  1. Cloud Data Fusion UI의 스튜디오 페이지에서 싱크 메뉴를 클릭하여 펼칩니다.

  2. GCS를 클릭합니다.

  3. 연결 화살표를 수정 노드에서 GCS2 노드로 드래그합니다.

    이미지

  4. GCS2 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.

    1. 참조 이름에 참조 이름을 입력합니다.

    2. 경로에서 파이프라인 결과를 저장할 Cloud Storage 버킷의 경로를 입력합니다. Cloud Data Fusion에서 자동으로 Cloud Storage 버킷을 만듭니다. 버킷 이름 지정 가이드라인을 따라야 합니다.

    3. 형식CSV를 선택합니다.

      이미지

    4. 검사를 클릭하여 오류가 없는지 확인합니다.

    5. 대화상자의 오른쪽 상단 모서리에 있는 X 버튼을 클릭합니다.

미리보기 모드에서 파이프라인 실행

배포하기 전에 미리보기 모드에서 파이프라인을 실행합니다.

  1. 미리보기를 클릭한 후 실행을 클릭합니다.

    이미지

    실행 버튼을 클릭하면 파이프라인 상태가 표시됩니다. 파이프라인 상태는 시작으로 시작하여 중지, 실행 순으로 바뀝니다.

  2. 미리보기 실행이 완료되면 수정 노드에서 데이터 미리보기를 클릭하여 입력 데이터와 출력 데이터를 나란히 비교할 수 있습니다. 전화번호가 # 문자로 마스킹되었는지 확인합니다.

    이미지

다른 데이터 유형 수정

미리보기 실행 결과를 검토하는 동안 참고 열에 민감한 정보인 이메일 주소가 여전히 있는 것을 알게 되었습니다. 돌아가서 Cloud DLP 템플릿을 수정하여 이메일 주소도 수정합니다.

  1. Cloud Console에서 Cloud DLP 페이지로 이동합니다.

    Cloud DLP 페이지 열기

  2. 구성 탭에서 템플릿을 선택합니다.

  3. 수정을 클릭합니다.

  4. infoType 관리를 클릭합니다.

  5. 기본 제공 탭에서 필터를 사용하여 'OR' '이메일 주소'를 검색합니다.

    이미지

  6. 모두를 선택하고 완료를 클릭합니다.

  7. 저장을 클릭합니다.

  8. 다시 한 번 미리보기 모드에서 파이프라인을 실행합니다. Cloud Data Fusion은 업데이트된 Cloud DLP 템플릿을 자동으로 사용합니다.

  9. 전화번호 이메일 주소 모두 # 문자로 마스킹되었는지 확인합니다.

    이미지

파이프라인 배포 및 실행

  1. 미리보기 모드가 선택 해제되었는지 확인합니다.

  2. 저장을 클릭합니다. 저장을 클릭하면 파이프라인의 이름을 지정하라는 메시지가 표시됩니다. 확인을 클릭합니다.

    이미지

  3. 배포를 클릭합니다.

  4. 배포가 완료되면 실행을 클릭합니다. 파이프라인을 실행하는 데 몇 분 정도 걸릴 수 있습니다. 기다리는 동안 파이프라인 전환 상태프로비저닝에서 시작, 실행, 프로비저닝 해제, 성공으로 바뀌는 것을 볼 수 있습니다.

결과 보기

  1. Cloud Console에서 Cloud Storage 페이지로 이동합니다.

    Cloud Storage 페이지 열기

  2. 스토리지 브라우저에서 싱크 Cloud Storage 플러그인 속성에 지정한 싱크 Cloud Storage 버킷으로 이동합니다.

  3. 링크 URL에서 링크를 클릭하여 결과가 포함된 CSV 파일을 다운로드합니다. 전화번호와 이메일 주소가 # 문자로 마스킹되었는지 확인합니다.

    이미지

삭제

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

Cloud Data Fusion 인스턴스 삭제

다음 안내에 따라 Cloud Data Fusion 인스턴스를 삭제합니다.

프로젝트 삭제

비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 프로젝트를 삭제하는 것입니다.

프로젝트를 삭제하는 방법은 다음과 같습니다.

  1. Cloud Console에서 리소스 관리 페이지로 이동합니다.

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.

다음 단계