Cloud Data Fusion에서 Sensitive Data Protection 사용

이 가이드에서는 Cloud Data Fusion에서 Sensitive Data Protection을 사용하는 방법을 설명합니다.

Cloud Data Fusion은 민감한 정보를 필터링, 수정, 복호화할 수 있는 세 가지 변환을 제공하는 Sensitive Data Protection plugin을 제공합니다.

  • 개인 식별 정보(PII) 필터 변환을 사용하면 데이터의 입력 스트림에서 민감한 레코드를 필터링할 수 있습니다.

  • 수정 변환을 사용하면 데이터 마스킹 또는 암호화와 같은 민감한 정보를 변환할 수 있습니다.

  • 복호화 변환을 사용하면 이전에 수정 변환을 통해 암호화된 민감한 정보를 복호화할 수 있습니다.

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

  1. Google Cloud 콘솔에서 프로젝트 선택기 페이지로 이동하고 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  2. 프로젝트에 Cloud Data Fusion API를 사용 설정합니다.

    Cloud Data Fusion API 사용 설정

  3. 프로젝트에 DLP API(Sensitive Data Protection의 일부)를 사용 설정하세요.

    DLP API 사용 설정

  4. Cloud Data Fusion 인스턴스를 만듭니다.

Sensitive Data Protection 권한 부여

  1. Google Cloud 콘솔에서 IAM 페이지로 이동합니다.

    IAM으로 이동

  2. 권한 표의 주 구성원 열에서 다음 서비스 계정 중 하나를 선택합니다.

    1. 런타임 시 리소스 권한의 경우 Dataproc 클러스터에 사용되는 서비스 계정을 선택합니다. 기본값은 Compute Engine 서비스 계정이며, 보안상의 이유로 권장되지 않습니다.

    2. Cloud Data Fusion에서 Wrangler 또는 미리보기를 사용할 때(런타임 아님) 리소스에 대한 권한의 경우 대신 service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com 형식과 일치하는 서비스 계정을 선택합니다.

  3. 서비스 계정 오른쪽에 있는 연필 아이콘을 클릭합니다.

  4. 다른 역할 추가를 클릭합니다.

  5. 표시되는 드롭다운을 클릭합니다.

  6. 검색창을 사용하여 검색한 후 DLP 관리자를 선택합니다.

  7. 저장을 클릭합니다. DLP 관리자역할 열에 표시되는지 확인합니다.

Sensitive Data Protection 플러그인 배포

  1. 인스턴스로 이동합니다.

    1. Google Cloud 콘솔에서 Cloud Data Fusion 페이지로 이동합니다.

    2. Cloud Data Fusion Studio에서 인스턴스를 열려면 인스턴스를 클릭한 다음 인스턴스 보기를 클릭합니다.

      인스턴스로 이동

  2. Cloud Data Fusion 웹 UI 오른쪽 상단에 있는 허브를 클릭합니다.

  3. 데이터 손실 방지 플러그인을 클릭합니다.

  4. 배포를 클릭합니다.

  5. 마침을 클릭합니다.

  6. 파이프라인 만들기를 클릭합니다.

PII 필터 변환 사용

이 변환은 민감한 레코드를 민감하지 않은 레코드로부터 구분합니다. 레코드가 Sensitive Data Protection 템플릿에 정의된 기준과 일치하면 민감한 레코드로 간주됩니다. 예를 들어 템플릿을 만들 때 신용카드 정보 또는 주민등록번호를 민감한 데이터로 정의할 수 있습니다.

  1. Sensitive Data Protection 검사 템플릿을 만듭니다.

  2. Cloud Data Fusion에서 파이프라인을 열고 스튜디오 > 변환을 클릭합니다.

  3. PII 필터 변환을 클릭합니다.

  4. PII 필터 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.

  5. 필터에서 레코드 또는 필드를 필터링할지 여부를 선택합니다.

    Sensitive Data Protection 한도에 따라 레코드가 0.5MB를 초과하면 Cloud Data Fusion 파이프라인이 실패합니다. 이러한 실패를 방지하려면 레코드 대신 필드를 기준으로 필터링합니다.

  6. 템플릿 ID에서 만든 Sensitive Data Protection 템플릿의 템플릿 ID를 입력하세요.

  7. 오류 처리에서 파이프라인이 민감한 정보를 접할 때 진행할 방법을 정의합니다. 다음 오류 처리 옵션 중 하나를 선택합니다.

    • 파이프라인 중지: 오류가 발생하는 즉시 파이프라인을 중지합니다.
    • 레코드 건너뛰기: 오류를 발생시킨 레코드를 건너뜁니다. 파이프라인은 계속 실행되며 오류가 보고되지 않습니다.
    • 오류로 전송: 오류를 오류 포트로 보냅니다. 파이프라인은 계속 실행됩니다.
  8. X 버튼을 클릭합니다.

수정 변환 사용

이 변환은 입력 스트림에서 민감한 레코드를 식별하고 이 레코드에 정의된 변환을 적용합니다. 선택한 사전 정의된 Sensitive Data Protection 필터 또는 정의한 커스텀 템플릿과 일치하는 레코드는 민감한 레코드로 간주됩니다.

  1. Cloud Data Fusion 웹 UI의 스튜디오 페이지에서 변환 메뉴를 클릭하여 펼칩니다.

  2. 수정 변환을 클릭합니다.

  3. 수정 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.

  4. 사전 정의된 필터에 변환을 적용할 것인지 또는 직접 만들 것인지 여부를 선택합니다.

    이 두 옵션을 조합할 수 없습니다. 사전 정의된 필터를 사용하거나 커스텀 템플릿을 만들 수 있습니다.

    사전 정의된 필터

    사전 정의된 필터에 변환을 적용하려면 커스텀 템플릿아니요로 설정하고 일치에서 규칙을 정의합니다.

    1. 적용 후 드롭다운을 클릭하고 변환을 선택합니다. 플러그인 문서 탭의 설명 섹션에서 사용 가능한 변환에 대해 자세히 알아봅니다.

    2. 사용을 선택한 후 드롭다운을 클릭하고 카테고리를 클릭합니다. 카테고리는 유형별로 그룹화된 사전 정의된 Sensitive Data Protection 필터 집합입니다. 제공되는 카테고리의 전체 목록과 포함된 필터는 플러그인 문서 탭의 DLP 필터 매핑 섹션을 참조하세요.

    일치 규칙을 여러 개 설정하려면 + 버튼을 클릭합니다.

    커스텀 템플릿

    커스텀 템플릿에 따라 변환을 적용하려면 커스텀 템플릿로 설정합니다.

    1. 커스텀 Sensitive Data Protection 템플릿을 만듭니다.

    2. Cloud Data Fusion 웹 UI로 돌아가서 속성 수정 메뉴의 템플릿 ID에서 만든 커스텀 템플릿의 템플릿 ID를 입력하세요.

  5. X 버튼을 클릭합니다.

복호화 변환 사용

이 변환은 입력 스트림에서 Sensitive Data Protection을 사용하여 암호화된 레코드를 식별하고 복호화를 적용합니다. 형식 보존 암호화 또는 확정 암호화와 같이 역방향 알고리즘을 사용하여 암호화된 레코드만 복호화할 수 있습니다.

  1. Cloud Data Fusion 웹 UI의 스튜디오 페이지에서 변환 메뉴를 클릭하여 펼칩니다.

  2. 복호화 변환을 클릭합니다.

  3. 복호화 노드 위에 마우스 포인터를 올려놓고 속성을 클릭합니다.

  4. 이 데이터를 암호화한 수정 플러그인을 구성하는 데 사용한 것과 동일한 값을 입력합니다. 이 플러그인의 속성은 수정 플러그인과 동일합니다.

  5. X 버튼을 클릭합니다.

다음 단계