取樣總覽

為了減輕客戶的負擔,以及避免嚴重影響效能,Cloud Dataprep by TRIFACTA® 會產生一或多個可以在用戶端應用程式中顯示和操作的資料樣本。因為 Cloud Dataprep by TRIFACTA 支援各種用戶端和使用案例,所以您可以變更樣本大小、樣本範圍,以及建立樣本所使用的方法。本節提供產品如何管理資料集取樣的相關背景資訊。

取樣的運作方式

初始樣本

初次建立資料集時,背景工作會開始使用資料集的第一組資料列來開始產生樣本。初始樣本產生的速度通常很快,這樣您就能立即開始轉換作業。

  • 預設樣本為初始樣本。
  • 根據預設,每個樣本的大小為 10 MB。或若資料集屬於小型規模,則樣本大小甚至可以是整個資料集。
  • 如果資料來源為含有多個檔案的目錄,則合併資料集的初始樣本會從該目錄所列出第一個檔案名稱中的第一組資料列產生。
    • 如果相符的檔案為多工作表 Excel 檔案,則會從檔案的第一個工作表取得樣本。
    • 若您疊加含有參數的資料集,則會從第一個符合的資料集取得載入到「Transformer」(轉換器) 頁面的初始樣本。

  • 如已替換來源,先前的初始樣本即會變為無效,且會自動為您產生新的初始樣本。

產生樣本

可以在「轉換器」頁面右側的內容面板產生其他樣本。樣本工作是獨立的工作執行。不論樣本工作成功或失敗,系統都會顯示通知。

當您開發方案時,可能需要建立新的資料樣本。例如,您可能需要關注出現在單一資料欄中的不相符值或無效值。您可透過「轉換器」頁面,指定想要建立的樣本類型,並啟動工作來建立樣本。這個取樣工作會在背景中執行。

附註:若從「樣本」面板中執行樣本,則會根據導向方案步驟中目前位置的步驟來啟動樣本。例如,若方案包含其他資料集中的彙整,則系統會執行這些步驟,且會產生針對該等資料集具有相依性的樣本。因此,若您變更樣本產生所在步驟前發生的方案步驟,則可讓樣本變為無效。如需更多資訊,請參閱下文。

依據您選取的樣本類型,您可以按照下列其中一種方法,以及建立時間的遞增順序來產生樣本:

  1. 按照一組指定的資料列 (前 N 列)
  2. 按照資料集的快速掃描
  3. 按照整個資料集的完整掃描
您隨時都可以建立新樣本。建立樣本後,樣本會儲存在後端資料儲存庫的儲存目錄中。請參閱使用者個人資料頁面

附註:共用流程時,相關樣本也會與其他使用者共用。但如果這些使用者無權存取構成樣本的基礎檔案,則同樣無法存取該樣本,而必須建立他們自己的樣本。

提示:若您已新增成本較高的轉換步驟,例如複雜聯集或彙整,則可產生和使用新樣本來增進「轉換器」頁面的效能。

若要進一步瞭解如何建立樣本,請參閱樣本面板

取樣的重要注意事項

  • 在 Cloud Dataflow 中執行的新取樣工作可能會產生費用。
  • 若來源檔案使用 Avro 格式,則 Cloud Dataflow 工作會從整個檔案取樣,因此可能會產生額外處理成本。此為已知問題。

  • 從壓縮資料取樣時,系統會先解壓縮,然後才會展開資料。因此,樣本大小會反映未壓縮的資料。
  • 若上述步驟的變更改變了資料集裡資料列或資料欄的數目,則可能使目前的樣本失效,這表示樣本不再是方案中資料集狀態的有效表示。在此情況下,Cloud Dataprep by TRIFACTA 會自動切回您最近收集到且目前仍有效的樣本。詳情請見下方說明。

樣本參數化

與資料集關聯的所有參數皆可套用至取樣:

  • 參數:系統會針對使用參數值比對得出的所有資料集,對「Transformer」(轉換器) 頁面產生的後續樣本進行取樣。
  • 變數您可以在執行取樣時,將覆寫值套用至資料集變數的預設值。您可透過此方式,使用參數從資料集中的特定來源檔案提取樣本。

選擇樣本

在資料集裡收集多種類型的多個樣本後,您可以依據下列條件來選擇適用於目前工作的樣本:

  1. 每個樣本代表基礎資料集的程度。 目前的樣本是否能大規模的反映整個資料集的統計資料和離群值?
  2. 每個樣本對下一個方案步驟的支援程度。 例如,如果您要開發管理無效資料或離群值的步驟,則可能需要選擇不同的樣本。

提示:當您依據目前的方案來產生新的樣本時,就可以開始處理已經過期但仍然有效的樣本。

限制

  • 部分進階取樣選項只有在對完整資料集執行掃描時才能使用。
  • 復原/重做並不會變更樣本狀態,即使樣本變成無效也一樣。

樣本失效

在方案中新增或修改每個步驟後,Cloud Dataprep by TRIFACTA 都會檢查並查看目前的樣本是否有效。樣本的有效性,取決於收集樣本時位於步驟的何種流程與方案狀態。若您在建立樣本所處步驟之前新增步驟,即會使目前活動中的樣本無效。例如,如果您改變了資料來源,則「轉換器」頁面中的樣本就不再適用,而必須顯示新的樣本。

提示:在完成大幅變更資料集裡的資料列及/或資料欄數目的步驟後,您可能需要產生新樣本,並將與執行工作相關的任何費用列入考量。效能費用可能會顯示在「轉換器」頁面中。

附註:如果您修改匯入資料集的 SQL 陳述式,則任何使用舊 SQL 陳述式的樣本都會失效。

  • 「轉換器」頁面會還原成顯示最近所收集到且目前仍然有效的樣本。
  • 您可以透過樣本面板來產生相同類型的新樣本。如果沒有有效的樣本,則必須先產生新樣本,然後才能開啟資料集。

  • 失效的樣本會列在「無法使用」分頁中,並無法被選取使用。如果後續步驟讓樣本再次變成有效,樣本就會重新出現在「可供使用」分頁中。

樣本類型

Cloud Dataprep by TRIFACTA 目前支援下列取樣方法。

前 N 個資料列樣本

此樣本是從已轉換資料集中的第一組資料列所取得,而該資料集是根據方案中的目前游標位置轉換而得。系統會根據設定的樣本大小方案步驟,收集資料集中的前 N 個資料列。

  • 根據方案架構而定,此樣本可能會跨越多個資料集和檔案。
  • 前 N 個資料列樣本與初始樣本不同,其無須參照任何方案步驟即可收集取得。

這些樣本可快速產生。這些樣本在應用程式中的載入速度,可能會比其他類型的樣本更快。

提示:若您將多個方案鏈結在一起,則必須執行所有已連結方案中的全部步驟,以提供視覺化更新。若您遇到與此類更新有關的效能問題,可在方案鏈結的中間位置選取方案並將其關閉,以將初始樣本設定為其他樣本。若已叫用,則先前資料集中的方案即無須執行,因此可增進運作效能。

隨機樣本

在資料集裡隨機選取的資料列子集。這些樣本產生的速度相當快。您可以套用快速掃描或完整掃描來判斷樣本範圍。

以篩選為基礎的樣本

在一或多個資料欄中尋找特定值。找到一組相符的值後,即會產生隨機樣本。

您必須在「篩選器」文字方塊中定義您的篩選條件。

以異常資料為基礎的樣本

在一或多個資料欄中尋找不相符及/或遺漏的資料。

您必須指定一或多個資料欄,以及異常資料的定義:

  1. 不相符
  2. 遺漏
  3. 以上任一種

您可以選擇對其他資料欄定義額外的篩選器。

分層樣本

在某一資料欄中尋找所有不重複的值,然後建立含有這些不重複值的樣本,最多可達樣本大小上限。樣本中資料欄值的分佈反映了資料集裡資料欄值的分佈。取樣值會按指定資料欄的頻率排序。

您可以選擇將篩選器套用於這個資料欄。

叢集為基礎的樣本

叢集取樣會收集資料集裡的連續資料列,這些列對應於從資料欄中不重複值隨機選取的內容。與選取的不重複值對應的所有資料列會出現在樣本中,最多可達樣本大小上限。這類取樣非常適合用於時間序列分析和進階匯總。

您可以選擇將進階篩選器套用到資料欄。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁