樣本面板

如果是較小型的資料集,「Transformer」(轉換器) 頁面會顯示完整的資料集。至於較大的資料集,系統會對來源資料取樣,以使用於「Transformer」(轉換器) 頁面上。

在「Transformer」(轉換器) 頁面的頂端,資料集名稱旁會顯示目前樣本的類型。若要開啟樣本面板,請按一下該連結。在下面的範例中,「Full Data」(完整資料) 連結指示「Transformer」(轉換器) 頁面中的目前樣本是整個資料集:

圖:按一下樣本連結。

樣本面板會顯示於畫面右側:

圖:「Samples」(樣本) 面板

目前樣本:

您可在樣本面板的頂端檢視目前載入的樣本。每位使用者在資料集上有專屬的有效樣本。

  • 初始:根據預設,當「Transformer」(轉換器) 頁面開啟時,應用程式會載入資料集的前 N 個資料列做為初始樣本。資料列數取決於資料欄數、資料密度和其他因素。如果資料集很小,系統會使用完整的資料集。

    附註:依據預設,樣本大小的上限最高可達 10 MB。如果資料集小於此限制,系統會載入完整資料集。

  • 按一下目前的樣本資訊卡上的連結,即可檢視所有可用樣本的清單。

    提示:若要變更樣本的名稱,請在所有可用清單中按一下它的卡片。然後按一下 [Edit] (編輯) 圖示。

新樣本:

在目前樣本的下方,可檢視可供建立新樣本的選項。樣本的各種類型反映了不同的收集方法。

  • 如果要收集新樣本,請按一下適合的樣本資訊卡,請參閱下文。

  • 如果要取消收集樣本,請按一下進度列旁的「X」圖示。中斷的樣本會列為無法使用。您可以從尚未完成的樣本集合中下載記錄。

    若要檢視 Cloud Dataflow 上的取樣工作,請按一下進度列旁的圖示。

  • 樣本建立後,只要仍為有效狀態,即可隨時載入樣本。在已收集的樣本旁,按一下 [Load sample] (載入樣本) 即可。
  • 如需取樣方法的詳細資訊,請參閱取樣總覽

狀態列:

在「Transformer」(轉換器) 頁面的底端,可以檢視目前顯示的樣本的資料列與資料欄的數目,以及資料類型的種數。

附註:當您新增轉換步驟到方案中時,狀態列的值會變更,以反映載入樣本的目前狀態。

附註:某些操作 (例如 union) 可能會改變資料列的數量,但不會使樣本變為無效。如果操作會增加資料集的大小,導致超過應用程式強制執行的樣本大小,則系統會顯示出那些資料列的子集。這是已知問題。

收集新樣本

收集新樣本時,會依據採集樣本時方案中的目前位置收集樣本。因此,如果方案包含彙整其他資料集的步驟,則會執行這些彙整,以便將執行樣本的資料匯集在一起。

圖:「Collect new sample」(收集新樣本) 面板

附註:除了初始樣本之外,所有樣本都是依據方案中產生游標位置的步驟而生成。如果刪除或修改了先前的步驟,可能會使收集的樣本無效。

附註:從壓縮資料取樣時,並不會壓縮來源,且會將新樣本載入至資料柵格。因此在柵格中看到的樣本大小,是對應到未壓縮的資料。

步驟:

  1. 在樣本面板中,選取待建立的樣本類型。如需樣本類型的詳細資訊,請參閱取樣總覽
  2. 在「Collect new sample」(收集新樣本) 面板中,指定下列參數,不過您的採樣方式可能不需要其中幾個參數:

    1. 「Choose a sampling method」(選擇取樣方法):選取或輸入樣本類型。如果已選好取樣方法,會預先填入此值。

    2. 「Name」(名稱):您可以依據需要輸入樣本的新名稱。

      提示:命名樣本有助於日後追蹤它們。例如,您可以選擇在擷取樣本時為要跟蹤的名稱添加日期戳記。

    3. 「Scan Type」(掃描類型):(並不適用於所有取樣方法) 掃描類型:Quick - 執行資料集的隨機掃描,以擷取合適的樣本資料列數量 Full - 從完整的資料集中收集樣本。此方法可能會需要花一點時間,端視資料集的大小。

    4. 「Column」(資料欄):(分層、依據叢集) 要從其中收集待評估值 (依據異常) 的資料欄的名稱。指定其中包含要加入樣本中的異常情況的一個或多個資料欄的名稱。可用半形逗號分隔值來指定多個資料欄,使用波浪號 (~) 字元則可指定資料欄範圍。
    5. 「Condition」(狀況):(依據篩選器、分層、依據叢集、依據異常) 根據指定條件篩選樣本。例如:

      invoiceDate > 90
    6. 「Anomaly type」(異常類型):(依據異常) 選取要加入樣本中的異常值類型:無效、遺漏或兩種類型。
    7. 「Variable overrides」(變數複寫):如果一個或多個變數與資料集關聯,則可定義在執行樣本時應用的值覆寫。

      1. 您可以使用這些覆寫值,對資料集中不同來源檔案的資料以參數進行採樣。

      2. 變數的預設值可以是空白。
      3. 詳情請參閱參數化總覽

  3. 按一下 [Collect] (收集) 即可開始收集樣本。
  4. 收集樣本期間仍可繼續工作。當樣本可供使用時,會在「Transformer」(轉換器) 頁面中顯示一則狀態訊息。
  5. 在樣本面板中按一下 [Load Sample] (載入樣本),即可開始使用。

收集的樣本

在收集樣本面板上,可檢視可供使用和無法使用的樣本。如果適用的話,您可以查看取採樣期間應用的變數覆寫值。

如果要使用其中一個可用的樣本,請選取其資訊卡。樣本會載入至資料柵格。

附註:如果新增的方案步驟會改變資料集內的資料列數量 (或少數其他邊緣案例的步驟),則部分現有的樣本可能會不再有效。在採取此動作前,當您執行彙整、聯集、刪除動作或編輯步驟時,可能會出現包含以下訊息的「Change Recipe」(變更方案) 對話方塊:

您所做的變更會導致此來源目前可用的樣本變為無效,無效的樣本會被停用。

如需進一步瞭解可能導致樣本失效的轉換類型,請參閱重新調整步驟

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁