建立持續評估工作

持續評估工作定義 AI Platform Data Labeling Service 如何針對您已部署到 AI Platform Prediction模型版本進行持續評估。當您為模型版本建立評估工作時,會發生兩件事:

  • 由於模型版本提供線上預測,部分這類預測的輸入和輸出會儲存在 BigQuery 資料表中。
  • 系統會定期執行持續評估工作,執行下列工作:
    1. 工作會建立一個資料標籤服務資料集,其中包含自上次執行以來 BigQuery 中的所有新資料列。
    2. (非必要) 工作會提交標籤要求,讓人工審查員提供預測的實際資料標籤。
    3. 工作會計算一組評估指標,您可以在 Google Cloud Platform Console 中檢視

事前準備

在開始之前,您必須將滿足特定模型要求的模型版本部署到 AI Platform Prediction。您還必須啟用某些 Google Cloud Platform API。參閱開始持續評估之前,瞭解如何滿足這些要求。

設定基本選項

以下各節說明如何前往工作建立頁面,以及如何設定評估工作的基本詳細資料。

如要為模型版本建立評估工作,請在 GCP Console 中前往該模型版本的頁面,然後開啟工作建立頁面:

  1. 在 GCP Console 中開啟 AI Platform 模型頁面:

    前往 AI Platform 模型頁面

  2. 按一下包含您要為其建立評估工作的模型版本的模型名稱。

  3. 按一下您要為其建立評估工作的模型版本名稱。它尚不能附加評估工作。

  4. 按一下 [Evaluation] (評估) 分頁標籤。然後按一下 [Set up evaluation job] (設定評估工作)

指定描述、模型目標、標籤和抽樣百分比

以下步驟說明您必須在工作建立表單中指定的基本設定詳細資料:

  1. 在 [Job description] (工作描述) 欄中為您的評估工作新增說明。

  2. 在 [Model objective] (模型目標) 欄位中指定機器學習模型執行的工作類型。瞭解有關持續評估支援的機器學習模型的類型的更多資訊。

    • 如果您的模型執行分類,在 [Classification type] (分類類型) 欄位中指定是執行單標籤分類還是多標籤分類。
    • 如果模型會執行圖片物件偵測,請於 0 和 1 之間指定交集聯集 (IOU) 最小值。這定義了需要與實際資料定界框進行比較的模型預測定界框的相似程度,才能被視為正確的預測。
  3. 在 [Prediction label file path] (預測標籤檔案路徑)欄位中,指定 Cloud Storage 中 CSV 檔案的路徑,其中包含模型預測的可能標籤。這個檔案定義了模型的註解規格集。了解如何建立這個檔案的結構。

  4. 在 [Daily sample percentage]( (每日取樣百分比) 欄位中,指定要匯出到 BigQuery 並作為持續評估的一部分進行分析的模型版本所提供的預測的百分比。

    此外,您也可以指定每日取樣上限,設定在任何一個評估期間內,您想要取樣的預測數量上限。

    舉例來說,假設您想要取樣 10% 的預測值來進行持續評估,不過,如果您在特定日期獲得大量預測,同時想確保當天不會取樣超過 100 個預測進行評估工作執行。(大量的預測可能會使人工審查員花費很長時間進行標記並產生超出您預期的更多資料標記服務費用。)

指定您的 BigQuery 資料表

在 [BigQuery table] (BigQuery 資料表) 欄位中,您必須指定 BigQuery 資料表的名稱,資料標籤服務可以在其中存儲從模型版本中採樣的預測。

如果您指定尚不存在的資料表的名稱,則資料標籤服務將為您建立具有正確架構的資料表。

您必須以下列格式提供資料表的完整名稱:bq://your-project-id.your-dataset-name.your-table-name

  • your-project-id 必須是您目前正在建立評估工作的專案的 ID。
  • your-dataset-name 可以是任何有效的 BigQuery 資料集名稱。該資料集尚不需要存在。
  • your-table-name 可以是任何有效的 BigQuery 資料表名稱

如果您指定的資料表已存在,則必須具有正確的結構,才能進行持續評估:

欄位名稱類型模式
modelSTRING必填
model_versionSTRING必填
時間TIMESTAMP必填
raw_dataSTRING必填
raw_predictionSTRINGNULLABLE
實際資料STRINGNULLABLE

除了這些資料表之外,這個表格不得包含任何其他欄。

指定預測鍵

您必須在輸入中指定某些欄位的鍵,以便資料標籤服務可以從原始預測輸入中擷取必要的資訊,並輸出存儲在 BigQuery 資料表中的 JSON。請確認您的模型版本接受輸入內容,並以所需格式傳回預測。然後提供相關的鍵:

  • 資料鍵:模型版本的預測輸入中欄位的鍵,該欄位包含用於預測的資料。如果啟用了人工標籤,則資料標籤服務會將這些資料提供給人工審查員以提供基本事實標籤。此外,當您在 GCP Console 中檢視評估指標時,也會使用這項指標來顯示並列比較結果。

    如果您的模型版本執行文字分類或一般分類,您必須提供此鍵。如果模型版本執行圖片分類或圖片物件偵測,並接受 Base64 編碼的圖片做為預測輸入,您也必須提供這個鍵。

  • 資料參考鍵:模型版本的預測輸入中欄位的鍵,其中包含圖片的 Cloud Storage 路徑。資料標籤服務會載入此圖片,並且此圖片的用途與資料鍵相同。

    僅當您的模型版本執行圖片分類或圖片物件偵測並接受 Cloud Storage 中圖片的路徑作為預測輸入時,才提供此鍵。至少需要資料鍵資料參考鍵其中之一。

  • 預測標籤鍵:模型版本預測輸出中包含預測標籤陣列的欄位鍵。資料標籤服務會將這些值與實際資料值進行比較,以便計算評估指標 (例如混淆矩陣)。

    這是必填欄位。

  • 預測得分鍵:模型版本預測輸出中包含預測得分陣列的欄位鍵。資料標籤服務將這些值與預測標籤和實際資料標籤一起使用,以計算評估指標 (如精確度喚回度曲線)。

    這是必填欄位。

  • 定界框鍵:模型版本的預測輸出中包含定界框陣列的欄位鍵。這是評估圖片物件偵測的必要條件。

    只有在模型版本執行圖片物件偵測時,才提供這個鍵。

預測鍵範例

以下章節提供了有關如何為不同類型的模型提供預測鍵的範例:

圖片分類

Base64 編碼範例

假設您的模型版本可接受下列輸入:

{
  "instances": [
    {
      "image_bytes": {
        "b64": "iVBORw0KGgoAAAANSUhEUgAAAAYAAAAGCAYAAADgzO9IAAAAhUlEQVR4AWOAgZeONnHvHcXiGJDBqyDTXa+dVC888oy51F9+eRdY8NdWwYz/RyT//znEsAjEt277+syt5VMJw989DM/+H2MI/L8tVBQk4d38xcWp7ctLhi97ZCZ0rXV6yLA4b6dH59sjTq3fnji1fp4AsWS5j7PXstRg+/b3gU7N351AQgA8+jkf43sjaQAAAABJRU5ErkJggg=="
      }
    }
  ]
}

假設它傳回下列輸出:

{
  "predictions": [
    {
      "sentiments": [
        "happy"
      ],
      "confidence": [
        "0.8"
      ]
    }
  ]
}

然後提供以下鍵:

  • 資料鍵image_bytes/b64
  • 預測標籤鍵sentiments
  • 預測得分鍵confidence

Cloud Storage 參照範例

假設您的模型版本可接受下列輸入:

{
  "instances": [
    {
      "image_path": "gs://cloud-samples-data/datalabeling/image/flower_1.jpeg"
    }
  ]
}

假設它傳回下列輸出:

{
  "predictions": [
    {
      "sentiments": [
        "happy"
      ],
      "confidence": [
        "0.8"
      ]
    }
  ]
}

然後提供以下鍵:

  • 資料參考鍵image_path
  • 預測標籤鍵sentiments
  • 預測得分鍵confidence

文字分類

假設您的模型版本可接受下列輸入:

{
  "instances": [
    {
      "text": "If music be the food of love, play on;"
    }
  ]
}

假設它傳回下列輸出:

{
  "predictions": [
    {
      "sentiments": [
        "happy"
      ],
      "confidence": [
        "0.8"
      ]
    }
  ]
}

然後提供以下鍵:

  • 資料鍵text
  • 預測標籤鍵sentiments
  • 預測得分鍵confidence

一般分類

假設您的模型版本可接受下列輸入:

{
  "instances": [
    {
      "weather": [
        "sunny",
        72,
        0.22
      ]
    }
  ]
}

假設它傳回下列輸出:

{
  "predictions": [
    {
      "sentiments": [
        "happy"
      ],
      "confidence": [
        "0.8"
      ]
    }
  ]
}

然後提供以下鍵:

  • 資料鍵weather
  • 預測標籤鍵sentiments
  • 預測得分鍵confidence

圖片物件偵測

Base64 編碼範例

假設您的模型版本可接受下列輸入:

{
  "instances": [
    {
      "image_bytes": {
        "b64": "iVBORw0KGgoAAAANSUhEUgAAAAYAAAAGCAYAAADgzO9IAAAAhUlEQVR4AWOAgZeONnHvHcXiGJDBqyDTXa+dVC888oy51F9+eRdY8NdWwYz/RyT//znEsAjEt277+syt5VMJw989DM/+H2MI/L8tVBQk4d38xcWp7ctLhi97ZCZ0rXV6yLA4b6dH59sjTq3fnji1fp4AsWS5j7PXstRg+/b3gU7N351AQgA8+jkf43sjaQAAAABJRU5ErkJggg=="
      }
    }
  ]
}

假設它傳回下列輸出:

{
  "predictions": [
    {
      "bird_locations": [
        {
          "top_left": {
            "x": 53,
            "y": 22
          },
          "bottom_right": {
            "x": 98,
            "y": 150
          }
        }
      ],
      "species": [
        "rufous hummingbird"
      ],
      "probability": [
        0.77
      ]
    }
  ]
}

然後提供以下鍵:

  • 資料鍵image_bytes/b64
  • 預測標籤鍵species
  • 預測得分鍵probability
  • 定界框鍵bird_locations

Cloud Storage 參照範例

假設您的模型版本可接受下列輸入:

{
  "instances": [
    {
      "image_path": "gs://cloud-samples-data/datalabeling/image/flower_1.jpeg"
    }
  ]
}

假設它傳回下列輸出:

{
  "predictions": [
    {
      "bird_locations": [
        {
          "top_left": {
            "x": 53,
            "y": 22
          },
          "bottom_right": {
            "x": 98,
            "y": 150
          }
        }
      ],
      "species": [
        "rufous hummingbird"
      ],
      "probability": [
        0.77
      ]
    }
  ]
}

然後提供以下鍵:

  • 資料參考鍵image_path
  • 預測標籤鍵species
  • 預測得分鍵probability
  • 定界框鍵bird_locations

指定實際資料方法

透過將您的機器學習模型的預測與人類標註的實際資料標籤進行比較,可以進行持續評估。透過按一下首選的實際資料方法,選取要如何建立實際資料標籤:

  • Google 託管的標籤服務:如果選取此選項,則每次執行評估工作時,資料標籤服務都會將所有新的取樣資料傳送給人工審核員,以貼上實際資料的標籤。會套用資料標籤服務定價。如果您選擇此選項,則必須提供 PDF 說明以為您的預測輸入貼上標籤。瞭解如何編寫良好的說明

  • 提供您自己的標籤:如果您選取這個選項,就必須自行在評估工作的 BigQuery 資料表中新增實際資料標籤。您必須為下一次執行評估工作之前取樣的任何新預測輸入新增實際資料標籤。根據預設,評估工作每天都會在世界標準時間上午 10:00 執行,因此您必須在該時間之前每天為 BigQuery 資料表中的任何新列新增實際資料標籤。否則,將不會評估該資料,並且您會在 GCP Console 中看到錯誤。

    如果您的模型版本執行一般分類,這是唯一的選項。

建立工作:

按一下 [Create] (建立) 按鈕,建立評估工作。預測輸入和輸出應該立即從模型版本中取樣到 BigQuery 資料表中。

後續步驟

瞭解如何檢視評估指標

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Machine Learning 說明文件