遮蓋機密資料


本教學課程說明如何使用 Cloud Data Fusion 外掛程式,透過 Cloud DLP 遮蓋機密資料。

情境

請參考下列情境,其中必須遮蓋部分私密的客戶資訊:

支援團隊會在支援單中記錄處理的每件支援案件詳細資料。支援單中的所有資訊都會匯入 CSV 檔案。支援技術人員不應記錄任何視為私密的客戶資訊,但有時會誤記。您發現 CSV 檔案中出現部分客戶的電話號碼。

您想檢查 CSV 檔案,並隱藏所有電話號碼。您將建立 Cloud Data Fusion 管道,並使用 Cloud DLP 外掛程式,遮蓋機密客戶資料。

在本教學課程中,您將建立可執行下列作業的管道:

  • # 字元遮蓋顧客電話號碼,藉此隱藏號碼。
  • 將遮蓋的機密資料和非機密資料儲存在 Cloud Storage bucket 中。

目標

  • 將 Cloud Data Fusion 連線至 Cloud Storage 來源。
  • 部署 Cloud DLP 外掛程式。
  • 建立自訂 Cloud DLP 範本。
  • 使用 Redact 轉換外掛程式遮蓋機密顧客資料。
  • 將輸出資料寫入 Cloud Storage。

費用

在本文件中,您會使用 Google Cloud的下列計費元件:

如要根據預測用量估算費用,請使用 Pricing Calculator

初次使用 Google Cloud 的使用者可能符合免費試用資格。

事前準備

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. 建立 Cloud Data Fusion 執行個體
  8. 取得 Cloud DLP 權限

    1. 前往 Google Cloud 控制台的「IAM」頁面。

      開啟 IAM 頁面

    2. 在權限表格的「主體」欄中,找出符合 service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com 格式的服務帳戶。

    3. 按一下「Edit」(編輯)

    4. 按一下 [Add another role] (新增其他角色)。

    5. 使用搜尋列搜尋並選取「DLP 管理員」

    6. 按一下 [儲存]

    7. 確認「角色」欄中顯示「資料遺失防護管理員」

    使用 Cloud Data Fusion 時,您會同時使用 Google Cloud 控制台和獨立的 Cloud Data Fusion UI。在 Google Cloud 控制台中,您可以建立 Google Cloud 控制台專案,以及建立和刪除 Cloud Data Fusion 執行個體。在 Cloud Data Fusion UI 中,您可以使用「Studio」或「Wrangler」等各種頁面,使用 Cloud Data Fusion 功能。

    1. 在 Google Cloud 控制台中,開啟「Instances」(執行個體) 頁面。

      開啟「Instances」(執行個體) 頁面

    2. 在執行個體所屬的「動作」欄中,按一下「查看執行個體」連結。Cloud Data Fusion 使用者介面會在新的瀏覽器分頁中開啟。

建立管道

建立管道,遮蓋私密顧客資料。您建構的管道會執行下列作業:

  • 使用 Cloud Storage 來源外掛程式讀取輸入資料。
  • 從 Hub 部署 Cloud DLP 外掛程式。
  • 使用 Cloud Storage 接收器外掛程式寫入輸出資料。

載入客戶資料

本教學課程使用公開 Cloud Storage 值區提供的輸入資料集 CallCenterRecords.csv

  1. 開啟 Cloud Data Fusion 執行個體,然後按一下 「選單」>「Studio」

  2. 在「來源」選單中,按一下「Cloud Storage」外掛程式。

    選取外掛程式。

  3. 在「Cloud Storage」節點上,按一下「Properties」

  4. 在「Reference name」(參照名稱) 欄位中,輸入名稱。

  5. 在「Path」(路徑) 欄位中輸入 gs://datafusion-sample-datasets/CallCenterRecords.csv

  6. 在「格式」欄位中,選取「CSV」。

  7. 在「輸出結構定義」中,刪除「offset」和「body」欄位。 按一下「新增」,然後輸入下列欄位:

    • 日期
    • 銀行
    • 狀態
    • 郵遞區號
    • 附註

    輸入來源資源。

  8. 按一下「驗證」檢查是否有錯誤。

  9. 點按 「Close」(關閉)

遮蓋機密資料

Cloud DLP Redact 外掛程式會識別輸入資料串流中的機密記錄,並對這些記錄套用您定義的轉換。如果資料記錄符合您選擇的預先定義 Cloud DLP 篩選器,或您定義的自訂範本,就會被視為機密資料。

在本教學課程中,您要遮蓋團隊中部分支援技術人員不慎記錄的客戶電話號碼。他們在支援單的「附註」部分輸入了私密資訊,這些資訊會顯示在 CSV 檔案的「附註」欄中。建立自訂 Cloud DLP 範本,然後在外掛程式的屬性選單中提供範本 ID。

部署 Cloud DLP 外掛程式

  1. 在 Cloud Data Fusion 執行個體中,按一下「Hub」(中心)

  2. 按一下「Cloud DLP」外掛程式。

  3. 按一下 [Deploy] (部署)

  4. 按一下「完成」

  5. 按一下「關閉」,即可關閉 Cloud DLP 對話方塊。

  6. 按一下「關閉」即可退出 Hub。

建立自訂範本

  1. 前往 Google Cloud 控制台的 Cloud DLP 頁面。

    前往 Cloud DLP

  2. 在「建立」選單中,選擇「範本」圖片

  3. 在「範本 ID」欄位中,輸入範本的 ID。

  4. 按一下「繼續」

  5. 在「設定偵測」欄位中,按一下「管理 infoType」

  6. 在「內建」分頁中,使用篩選器搜尋「電話號碼」。

    篩選器。

  7. 選取「PHONE_NUMBER」PHONE_NUMBER

  8. 依序點選「完成」>「建立」

進一步瞭解如何 建立 Cloud DLP 範本

套用 Cloud DLP 遮蓋轉換

  1. 前往 Cloud Data Fusion 的「Studio」頁面,然後按一下展開「Transform」選單。

  2. 按一下 Cloud DLP 遮蓋外掛程式。

    按一下外掛程式,將其新增至管道。

  3. 從「Cloud Storage」節點拖曳連線箭頭至「Redact」節點。

    連接兩個節點。

  4. 將游標懸停在「Redact」(遮蓋) 節點上,然後按一下「Properties」(屬性)

    1. 將「自訂範本」設為 Yes

    2. 在「範本 ID」欄位中,輸入您建立的自訂範本範本 ID。

    3. 在「比對」欄位中,對「附註」中的「自訂範本」套用「遮蓋」

    4. 在「遮蓋字元」欄位中,輸入 #

      遮罩。

    5. 按一下「驗證」檢查是否有錯誤。

    6. 點按 「Close」(關閉)

儲存輸出資料

將管道的結果儲存至 Cloud Storage 檔案。

  1. 在「Studio」頁面中,按一下展開「Sink」選單。

  2. 按一下「Cloud Storage」

  3. 將連線箭頭從「Redact」節點拖曳至「Cloud Storage2」節點。

    將 Redact 節點連結至第二個 Cloud Storage 節點。

  4. 將游標懸停在「Cloud Storage2」節點上,然後按一下「Properties」(屬性)

    1. 在「Reference name」(參照名稱) 欄位中,輸入名稱。

    2. 在「路徑」欄位中,輸入要儲存管道結果的 Cloud Storage bucket 路徑。Cloud Data Fusion 會為您建立值區。請務必遵守值區命名規範

    3. 在「Format」(格式) 欄位中,選取「CSV」

    4. 按一下「驗證」,確保沒有錯誤。

    5. 點按 「Close」(關閉)

在預覽模式下執行管道

部署前,請先在預覽模式下執行管道。

  1. 依序點選「預覽」和「執行」

    執行管道。

    按一下「執行」會顯示管道狀態,一開始是「啟動中」,然後變成「停止」,最後變成「執行」

  2. 預覽執行完成後,在「Redact」(遮蓋) 節點上按一下「Preview Data」(預覽資料),即可並列比較輸入和輸出資料。確認電話號碼已使用 # 字元遮蓋。

    確認電話號碼已遮蓋。

遮蓋其他資料類型

檢查預覽執行結果時,您發現「附註」欄中仍有電子郵件地址等機密資訊。您返回並編輯 Cloud DLP 範本,一併遮蓋電子郵件地址。

  1. 前往 Google Cloud 控制台的 Cloud DLP 頁面。

    開啟 Cloud DLP 頁面

  2. 在「設定」分頁中,選取範本。

  3. 按一下 [編輯]

  4. 按一下「管理 infoType」

  5. 在「內建」分頁中,使用篩選器搜尋「OR」和「電子郵件地址」。

    篩選器。

  6. 選取所有項目,然後按一下「完成」

  7. 按一下 [儲存]

  8. 再次在預覽模式下執行管道。 Cloud Data Fusion 會自動使用更新後的 Cloud DLP 範本。

  9. 確認電話號碼電子郵件地址都已使用 # 字元遮蓋。

    確認資料已遮蓋。

部署及執行管道

  1. 確認「預覽」模式未勾選。

  2. 按一下 [儲存]。按一下「儲存」後,系統會提示您為管道命名。然後按一下「確定」

  3. 按一下 [Deploy] (部署)

  4. 部署完成後,按一下「Run」(執行)。管道執行作業會在幾分鐘內完成。等待期間,您會發現管道的「Status」(狀態) 從「Provisioning」(佈建中) 變更為「Starting」(啟動中),然後變成「Running」(執行中),再從「Deprovisioning」(取消佈建中) 變更為「Succeeded」(成功)

查看結果

  1. 前往 Google Cloud 控制台的 Cloud Storage 頁面。

    前往 Cloud Storage

  2. 在「儲存空間瀏覽器」中,前往您在接收器 Cloud Storage 外掛程式屬性中指定的接收器 Cloud Storage 值區

  3. 在「連結網址」中,按一下連結即可下載含有結果的 CSV 檔案。 確認電話號碼和電子郵件地址已使用 # 字元遮蓋。

    確認資料已遮蓋。

清除所用資源

如要避免系統向您的 Google Cloud 帳戶收取本教學課程中所用資源的相關費用,請刪除含有該項資源的專案,或者保留專案但刪除個別資源。

刪除 Cloud Data Fusion 執行個體

請按照刪除 Cloud Data Fusion 執行個體一文的操作說明進行。

刪除專案

如要避免付費,最簡單的方法就是刪除您為了本教學課程所建立的專案。

如要刪除專案:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

後續步驟