本頁面由 Cloud Translation API 翻譯而成。

AutoML 新手指南

」

簡介

這份新手指南將介紹 AutoML。如要瞭解 AutoML 與自訂訓練之間的主要差異，請參閱「選擇訓練方法」。

這項產品可以帶來下列好處：

您是足球隊教練。
您在數位零售商的行銷部門工作。
您正在進行建築專案，目的是識別建築物類型。
貴商家網站上有聯絡表單。

手動收錄影片、圖片、文字與表格的作業相當繁瑣又費時，試想如果可以讓電腦學習自動辨識指定內容，並在內容出現時加以標記，這樣是不是輕鬆多了？

圖片

您與建築物保存委員會合作，試圖找出城市中建築風格一致的社區。您有成千上萬張住家快照需要篩選。不過，手動分類所有這些圖片既枯燥又容易出錯。幾個月前，有位實習生標記了幾百筆資料，但沒有其他人查看過這些資料。如果能教電腦幫你完成這項審查，那就太方便了！

表格

您在數位零售商的行銷部門工作。您與團隊正在依據顧客人物角色，建立個人化電子郵件方案。您已建立人物角色，行銷電子郵件也準備好寄送了。現在，您必須建立系統，依據零售偏好及消費行為將顧客放入各個人物角色，即使是新顧客也一樣。為了盡量提高顧客參與度，您也想預測顧客的消費習慣，以便在最佳時機傳送電子郵件。
表格簡介

由於您是數位零售商，因此可以取得客戶資料及其購物內容。但是新客戶怎麼辦？傳統方法可以針對長期購物的現有顧客計算這些值，但是不太能處理歷史資料很少的顧客。如果可以建立系統預測這些值，協助您加速向所有顧客傳送個人化行銷方案呢？

幸好，機器學習和 Vertex AI 非常適合用於解決這類問題。

文字

貴商家網站上有聯絡表單。您每天都會收到大量表單訊息，其中許多訊息是可以處理的。所有訊息同時湧入，很容易拖慢處理速度。不同員工負責處理不同類型的訊息。如果能運用自動化系統分類訊息，對正確的處理人員顯示正確的留言，那就太好了。

您需要運用特定系統審視留言，並決定留言性質屬於投訴、稱讚過往服務、有意深入瞭解貴公司、要求預約時間，抑或是想與公司建立合作關係。

影片

而且您收集了大量的比賽影片存檔，您想要從這些影片進行分析；只不過要看的影片有上百部，肯定要花上很多人力和時間，才能看完每部影片並手動標出需要的動作片段。而且每一季都得重複一次同樣的工作。試想如果電腦模型可以自動辨識指定動作，並在動作出現時加以標記，這樣是不是輕鬆多了？

以下列舉一些特定目標的情境。

動作辨識：找出進球、犯規、罰球等動作。教練可藉此研究球隊的優勢和弱點。
分類：將每個影片鏡頭分類為中場休息、賽事畫面、觀眾畫面或教練畫面。教練可藉此只瀏覽感興趣的影片鏡頭。
物件追蹤：追蹤足球或球員。教練可藉此取得球員的統計資料，例如場上的熱視圖、傳球成功率。

本指南將逐步說明 Vertex AI 如何處理 AutoML 資料集和模型，並說明 Vertex AI 旨在解決的問題類型。

公平性注意事項

Google 致力於遵循負責任的 AI 做法，並持續進步。為達成此目標，我們設計 AutoML 等機器學習產品時，會以公平性和以人為本的機器學習等核心原則為依據。如要進一步瞭解建構自有機器學習系統時，如何採取最佳做法來減少偏誤，請參閱包容性機器學習指南 - AutoML

為什麼 Vertex AI 是解決這個問題的合適工具？

傳統程式設計要求程式設計人員為電腦指定逐步操作說明以供遵循，不過，請考量在足球賽中識別特定動作的應用案例。顏色、角度、解析度和光線的變化太多，需要編寫的規則數量過於龐大，才能讓機器做出正確決策。很難想像該從何處著手。或是客戶留言內容廣泛涉及各種字彙與結構，組合之多，難以運用一組簡單的規則進行擷取。如果您嘗試建立手動篩選器，很快就會發現無法分類大多數的顧客留言。您需要一個可泛化各種留言的系統。如果一連串特定規則的約束力會呈指數成長，您就需要能從範例中學習的系統。

幸好，機器學習可以解決這些問題。

Vertex AI 的運作方式

簡易類神經網路的圖示法 Vertex AI 涉及監督式學習工作，以達成所選結果。演算法及訓練方法的具體細節因資料類型和用途而異。機器學習有許多不同的子類別，這些子類別解決的問題和運作限制各不相同。

圖片

您可以使用已加上分類標籤的範例圖片，訓練、測試及驗證機器學習模型，也可以使用已加上標籤和定界框的範例圖片，訓練、測試及驗證物件偵測模型。您可以透過監督式學習訓練模型，辨識圖片中您感興趣的模式和內容。

表格

您以範例資料訓練機器學習模型。Vertex AI 使用表格 (結構化) 資料訓練機器學習模型，以便對新資料進行推論。資料集中有一個名為「目標」的欄，您的模型將由此學習進行預測。有一些其他資料欄屬於輸入 (稱為特徵)，模型將藉此學習模式。您只要變更目標資料欄和訓練選項，就可使用相同的輸入特徵建構多種類型模型。就電子郵件行銷範例而言，這表示您可利用相同的輸入特徵建構模型，但目標推論不同。一個模型可用於預測顧客的人物角色 (類別目標)，另一個模型則可預測顧客的每月花費 (數值目標)，還有一個模型可用於預測未來三個月的產品每日需求 (數值目標序列)。
AutoML Tables 的運作方式

文字

Vertex AI 可讓您執行監督式學習。這包括訓練電腦從標示資料中辨識模式。您可以使用監督式學習，訓練 AutoML 模型辨識文字中您感興趣的內容。

影片

您可以使用已加上標籤的影片來訓練、測試和驗證機器學習模型。接著，您可以將新影片輸入經過訓練的模型，模型就會輸出加上標籤的影片片段。影片片段會定義影片中的開始和結束時間偏移。片段可以是整部影片、使用者定義的時間片段、自動偵測到的影片鏡頭，或只是開始時間與結束時間相同的時間戳記。每個標籤都是模型預測的「答案」。舉例來說，在先前提及的足球應用實例中，針對每部新的足球影片，視模型類型而定：

經過訓練的動作辨識模型會輸出影片時間偏移，並附上描述動作鏡頭的標籤，例如「進球」、「個人犯規」等。
經過訓練的分類模型會輸出自動偵測到的鏡頭片段，並加上使用者定義的標籤，例如「賽事畫面」和「觀眾畫面」。
訓練過的物件追蹤模型會輸出足球或球員的軌跡，方法是在物件出現的影格中繪製定界框。

Vertex AI 工作流程

Vertex AI 採用標準機器學習工作流程：

收集資料：根據您想達成的成果，判斷訓練及測試模型時需要的資料。
準備資料：確保資料格式正確並已加上適當標籤。
訓練：設定參數並建構模型。
評估：查看模型指標。
部署及預測：將您的模型投入運用。

資料準備

不過在開始收集資料之前，您應先思考要嘗試解決的問題。這項資訊將決定資料需求。

評估用途

先從以下問題開始著手：您想要達到什麼成果？

圖片

彙整資料集時，請務必先從用途著手。您可以先思考以下問題：

您想達成什麼成果？
如要達成這項結果，您需要辨識哪些類別或物件？
人類是否能辨識這些類別？雖然 Vertex AI 可處理的類別數量比人類一次能記憶和指派的類別多，但如果人類無法辨識特定類別，Vertex AI 也會難以辨識。
哪些類型的範例最能反映系統會看到並嘗試分類的資料類型和範圍？

表格

目標欄的資料類型為何？您可以存取多少資料？視您的答案而定，Vertex AI 會建立必要模型來因應您的用途：

「二元分類」模型可預測二元結果 (兩個類別之一)。這個模型可用於是非題，例如預測顧客是否會購買訂閱。在所有其他條件相同的情況下，二元分類問題需要的資料量少於其他模型類型。
「多元分類」模型可從三個以上的分離類別預測一個類別。請使用此模型分類事物。就零售範例而言，您可能想建構多元分類模型，將顧客區分為不同的人物角色。
「預測」模型可預測一系列值。舉例來說，零售商可能想預測未來 3 個月的每日產品需求，以便提前適當備貨。
「迴歸」模型可預測連續值。就零售範例而言，您可能想建構迴歸模型，預測顧客下個月的消費金額。

文字

彙整資料集時，請務必先從您的用途著手。您可以先思考以下問題：

您想達成什麼成果？
如要達成這項結果，您需要辨識哪些類別？
人類是否能辨識這些類別？雖然 Vertex AI 可處理的類別比人類一次能記住並指派的類別還多，但如果人類無法辨識特定類別，Vertex AI 也會難以辨識。
哪些類型的範例最能反映系統將分類的資料類型和範圍？

影片

根據您要達成的成果，選取合適的模型目標：

如要偵測影片中的動作時刻，例如進球、犯規或罰球，請使用動作辨識目標。
如要將電視鏡頭分類為商業廣告、新聞、電視節目等類別，請使用「分類」目標。
如要在影片中尋找及追蹤物件，請使用物件追蹤目標。

如需準備資料集的最佳做法，請分別參閱動作辨識、分類和物件追蹤目標的相關頁面。

收集資料

建立用途之後，您必須收集能讓您用來建立指定模型的資料。

圖片

收集足夠的資料確認所需資料後，您需要設法找到資料的來源。您可以先考慮貴機構收集的所有資料，或許您會發現，您早就在收集訓練模型所需的相關資料。如果沒有這類資料，可以手動取得，或外包給第三方供應商。

每種類別應包含足夠的有標籤樣本

納入足夠資料 Vertex AI Training 訓練的每個類別/標籤至少需要 100 份圖像樣本，才能進行分類。每個標籤的高品質範例越多，成功辨識標籤的可能性就越高；一般來說，訓練程序使用的標籤資料越多，模型就越準確。每個標籤至少要有 1000 個樣本。

平均分配各類別的樣本

請務必為每個類別擷取數量大致相同的訓練範例，即使某個標籤有大量資料，最好還是讓每個標籤的資料量平均分配。舉例來說，假設您用來建構模型的圖片有 80% 是現代風格的獨棟住宅，由於標籤分布不均，模型很可能學到一律將相片歸類為現代單戶住宅是安全的做法，而不是冒險預測較不常見的標籤。這就像寫選擇題測驗時，幾乎所有正確答案都是「C」一樣，聰明的應試者很快就會發現，即使不看問題，每次都回答「C」也能答對。
平均分配

我們瞭解要為每個標籤都找到數量大致相同的樣本，可能並不容易。有些類別可能較難找到公正而無偏見的高品質範例。在這種情況下，您可以遵循這項經驗法則：樣本數最少的標籤，應至少有樣本數最多標籤的 10% 樣本。因此，如果最大標籤有 10,000 個樣本，最小標籤應至少有 1,000 個樣本。

擷取問題空間的變化

基於類似原因，請盡量確保資料能涵蓋問題空間的各種變化。模型訓練程序看到的選取範圍越廣，越能將經驗運用到實際遇到的新樣本。舉例來說，如果您想將消費性電子產品的相片分類，模型在訓練時接觸的消費性電子產品種類越廣泛，就越有可能區分新型平板電腦、手機或筆記型電腦，即使模型從未見過該特定型號也一樣。
擷取各種變化版本

將資料與模型的理想輸出進行比對

將資料與理想的輸出進行比對
尋找與您打算進行推論的圖片相似的圖片。舉例來說，如果您想分類的房屋圖片都是在下雪的冬季拍攝，即使您已標記感興趣的類別，但如果模型只根據晴天拍攝的房屋圖片進行訓練，可能還是無法獲得良好的成效，因為光線和景色可能差異過大，足以影響成效。理想情況下，訓練範例是從您打算用來分類的資料集擷取的真實世界資料。

表格

測試集建立用途後，您將需要收集資料以訓練模型。資料來源及準備作業，是建構機器學習模型的關鍵步驟。您擁有的資料會決定可以解決的問題類型。您有多少可用資料？您的資料是否與您想回答的問題相關？收集資料時，請注意下列重要考量事項。

選取相關特徵

特徵是用於模型訓練的輸入屬性。特徵是指模型識別模式以進行推論的方法，因此必須跟您的問題有關。舉例來說，如要建構模型預測信用卡交易是否為詐欺，您需要建構含有交易詳細資料的資料集，例如買家、賣家、金額、日期與時間，以及購買的項目等等。其他實用特徵可能是買家及賣家的歷史資訊，以及購買項目牽涉詐欺的頻率。還有哪些其他特徵可能有關？

以簡介中提過的零售電子郵件行銷用途為例，以下是您可能需要的部分特徵欄：

購買項目清單 (包括品牌、類別、價格、折扣)
購買項目數量 (過去一天、一週、一個月、一年)
消費總金額 (過去一天、一週、一個月、一年)
每天售出的各項商品總數
每天的總庫存量
是否在特定日期推出促銷活動
已知的購物者客層資料

納入足夠資料

納入足夠資料一般來說，擁有的訓練樣本越多，成果會越理想。所需的樣本資料量，也會隨著您要嘗試解決問題的複雜度而增加。相較於多元分類模型，二元分類模型只需要較少的資料量，就能獲得準確的結果，因為從兩個類別預測一個類別，比從多個類別預測一個類別簡單。

沒有完美的公式，但建議的範例資料量下限如下：

「分類」問題：50 列 x 特徵數量
預測問題：

5000 列 x 特徵數量
時間序列 ID 欄中 10 個不重複的值 x 特徵數量

「迴歸」問題：200 x 特徵數量

擷取各種變化版本

您的資料集應該要廣納問題空間的各種變化版本。模型在訓練期間看到的樣本越多樣，越能夠將經驗運用到實際遇到的新樣本或較罕見的樣本。假設您的零售模型僅使用冬季購物資料進行訓練，這樣模型是否能夠成功預測夏季服飾偏好或購物行為呢？