InfoType 及 infoType 偵測工具

Cloud Data Loss Prevention (DLP) 使用「資訊類型」(英文簡稱「infoType」) 定義其掃描的內容。infoType 是一種機密資料,如姓名、電子郵件地址、電話號碼、身分證號碼、信用卡號等等。

Cloud DLP 定義的每個 infoType 都有對應的「偵測工具」。Cloud DLP 使用掃描設定中的 infoType 偵測工具,來決定要檢查的內容,以及如何轉換發現事項。顯示或報告掃描結果時,也會使用 InfoType 名稱。

本主題將詳細說明 infoType 及 infoType 偵測工具,並提供如何使用 infoType 偵測工具利用 Cloud DLP 掃描內容是否含有機密資料的相關指引。

指定 infoType 偵測工具

當您設定 Cloud DLP 掃描內容時,請在掃描設定中加入要使用的 infoType 偵測工具。

舉例來說,以下 JSON 示範的是傳至 Cloud DLP API 的簡單掃描要求。請注意,PHONE_NUMBER 偵測工具是在 inspectConfig 中指定,用於指示 Cloud DLP 掃描指定字串中的電話號碼。

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

以上的要求會傳回以下內容:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

請務必在掃描設定中指定 infoType。如果您並未在掃描設定中指定 infoType,Cloud DLP 預設會使用 ALL_BASIC infoType 偵測工具。依掃描的內容量而定,掃描 ALL_BASIC 可能非常耗時或昂貴。

要進一步瞭解如何使用 infoType 偵測工具掃描您的內容,請參閱有關檢查、遮蓋或去識別化的操作教學主題

infoType 偵測工具的種類

Cloud DLP 包括數種 infoType 偵測工具,分別摘要如下:

  • 內建 infoType 偵測工具內建於 Cloud DLP 之中,包括用於掃描特定國家或地區機密資料類型及全球適用資料類型的偵測工具。
  • 自訂 infoType 偵測工具是您自行建立的偵測工具。自訂 infoType 偵測工具分為三種:
    • 「一般自訂字典偵測工具」是 Cloud DLP 用於比對的簡單字詞清單。如果您的清單包含多達數萬個字詞或詞組,請使用一般自訂字典偵測工具。如果您的字詞清單不會大幅變動,建議採用一般自訂字典偵測工具。
    • 「儲存的自訂字典偵測工具」是由 Cloud DLP 使用儲存在 Cloud Storage 或 BigQuery 中的龐大字詞或詞組清單所產生。字詞或詞組清單龐大 (即高達數千萬個) 時,宜使用儲存的自訂字典偵測工具。
    • 「規則運算式 (regex)」可讓 Cloud DLP 根據規則運算式模式偵測相符項目。

此外,Cloud DLP 導入檢查規則的概念,可讓您使用以下規則微調掃描結果:

  • 「排除規則」可讓您將規則新增到內建或自訂 infoType 偵測工具中,藉此減少傳回的發現項目數。
  • 「啟動字詞規則」可讓您將規則新增到內建或自訂 infoType 偵測工具中,藉此提高傳回的發現項目數量,或變更傳回發現項目的可能性值

內建 InfoType 偵測工具

內建 infoType 偵測工具內建於 Cloud DLP 之中,其包括用於掃描特定國家或地區機密資料類型的偵測工具,如法國的「Numéro d'Inscription au Répertoire (NIR)」(FRANCE_NIR)、英國的駕照號碼 (UK_DRIVERS_LICENSE_NUMBER),以及美國社會安全號碼 (US_SOCIAL_SECURITY_NUMBER) 等。此外,也包括全球適用資料類型,如個人姓名 (PERSON_NAME)、電話號碼 (PHONE_NUMBER)、電子郵件地址 (EMAIL_ADDRESS) 和信用卡號 (CREDIT_CARD_NUMBER) 等。為了偵測對應於 infoType 的內容,Cloud DLP 會運用各種技術,包括模式比對、檢查碼機制、機器學習、上下文分析及其他技術。

內建 infoType 偵測工具的清單會隨時更新。如需目前支援的內建 infoType 偵測工具的完整清單,請參閱 InfoType 偵測工具參考資料

您也可以呼叫 Cloud DLP 的 infoTypes.list 方法,藉此查看所有內建 infoType 偵測工具的完整清單。

內建 infoType 偵測工具並非 100% 準確的偵測方法。例如,這些偵測工具無法保證符合法規要求。哪些資料屬於機密,以及機密資料的最佳保護方式必須由您決定。Google 建議您進行設定測試,以確定設定符合您的需求。

自訂 infoType 偵測工具

自訂 infoType 偵測工具分為三種:

此外,Cloud DLP 包含檢查規則,讓您為現有偵測工具新增以下規則以微調掃描結果:

一般自訂字典偵測工具

請使用一般自訂字典偵測工具,來比對較小的 (最多數萬個) 字詞或詞組清單。一般自訂字典可用做自己唯一的偵測工具。

如果您要掃描的字詞或詞組清單不易使用規則運算式或內建偵測工具進行比對時,即適合使用自訂字典偵測工具。例如,假設您要掃描會議室,一般會使用指定名稱而非號碼來稱呼會議室,如州或地區名稱、地標、虛構角色等。那麼您可以建立包含這些會議室名稱的清單的一般自訂字典偵測工具。Cloud DLP 即會掃描您的內容,查看是否包含這些會議室名稱,在上下文中發現這些名稱時傳回相符項目。請參閱建立一般自訂字典偵測工具一文的「字典比對細節」一節,進一步瞭解 Cloud DLP 如何比對字典字詞和詞組。

如要進一步詳加瞭解一般字典自訂 infoType 偵測工具的運作原理及應用範例,請參閱建立一般自訂字典偵測工具一文。

儲存的自訂字典偵測工具

當您要掃描的字詞或詞組不是只有幾個,或是字詞或詞組清單經常變動時,請使用儲存的自訂字典偵測工具。儲存的自訂字典偵測工具可以比對高達數千萬個字詞或詞組。

儲存的自訂字典偵測工具在本質上是非常大的自訂偵測工具,建立方式與規則運算式自訂偵測工具和一般自訂字典偵測工具不同。每一個儲存的自訂字典都有兩個元件:

  • 建立及定義的詞組清單。這個清單會存成 Cloud Storage 中的文字檔或存成 BigQuery 表格中的資料欄。
  • 由 Cloud DLP 根據您的詞組清單產生的字典檔案。字典檔案儲存在 Cloud Storage 中,由來源詞組資料加上 Bloom 篩選器所組成,用於輔助搜尋和比對。這些檔案無法直接編輯。

建立字詞清單,然後使用 Cloud DLP 產生自訂字典後,即可使用儲存的自訂字典偵測工具啟動或排程掃描,方式與其他 infoType 偵測工具類似。

如要進一步瞭解儲存的自訂字典偵測工具的運作原理及應用範例,請參閱建立儲存的自訂字典偵測工具一文。

規則運算式

規則運算式 (regex) 自訂 infoType 偵測工具方便您建立自己的 infoType 偵測工具,以讓 Cloud DLP 根據規則運算式模式偵測相符項目。舉例來說,假設您的病歷號碼格式為 ###-#-#####,則可定義如下的規則運算式模式:

[1-9]{3}-[1-9]{1}-[1-9]{5}

Cloud DLP 隨後會比對類似以下的項目:

123-4-56789

您也可以指定指派給每個自訂 infoType 相符項目的可能性。也就是說,當 Cloud DLP 比對您指定的序列時,將會指派您指定的可能性。這種做法很有用,因為如果您的自訂規則運算式定義的序列相當常見,可能很容易與一些其他隨機序列相符時,您不會希望 Cloud DLP 將每個相符項目都標記為 VERY_LIKELY,這樣會讓我們對掃描結果失去信心,並且可能造成將錯誤的資訊去識別化。

如需進一步瞭解規則運算式自訂 infoType 偵測工具及其應用實例,請參閱建立自訂規則運算式偵測工具一文。

檢查規則

您可使用檢查規則來微調現有的內建或自訂 infoType 偵測工具傳回的結果。當 Cloud DLP 傳回的結果必須透過某種方式擴增時,不論是從現有 infoType 偵測工具中進行增減,檢查規則可能會很有幫助。

檢查規則有以下兩種類型:

  • 排除規則
  • 啟動字詞規則

如要進一步瞭解檢查規則,請參閱修改 InfoType 偵測工具以修正掃描結果一文。

排除規則

排除規則可讓您將規則新增到內建或自訂 infoType 偵測工具中,藉此減少傳回的發現項目數或精確度。排除規則可以協助您降低 infoType 偵測工具傳回的雜訊或其他不需要的發現項目。

例如,如果您掃描資料庫中的電子郵件地址,可以使用自訂規則運算式的格式來新增排除規則,指示 Cloud DLP 排除結尾是「@example.com」的任何發現項目。

如要進一步瞭解排除規則,請參閱修改 InfoType 偵測工具以修正掃描結果一文。

啟動字詞規則

啟動字詞規則可讓您將規則新增到內建或自訂 infoType 偵測工具中,藉此提高傳回發現項目的數量或準確性。啟動字詞規則可以有效協助您放寬現有 infoType 偵測工具的規則。

例如,假設您要掃描醫療資料庫中的患者姓名,您可以使用 Cloud DLP 內建的 PERSON_NAME infoType 偵測工具,不過 Cloud DLP 會因此比對所有人的姓名,而不是只比對患者的姓名。為修正這種情況,您可以利用規則運算式自訂 infoType 的形式來加入啟動字詞規則,在潛在相符項目第一個字元的特定字元鄰近範圍內尋找「患者」一詞。然後,您可以為符合這個模式的發現項目,指派「非常可能」的可能性,因為這是您的特殊條件。

如要進一步瞭解啟動字詞規則,請參閱修改 InfoType 偵測工具以修正掃描結果一文。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Data Loss Prevention