充實資料

Cloud Dataprep by TRIFACTA® 提供多種工具,讓您可將其他來源的資料帶入資料集。

聯集

聯集作業可以連結多個資料集,請參閱以下範例。

提示:下列範例會根據資料欄的位置建立兩個資料集的聯集。您也可以根據資料欄名稱執行聯集作業。

資料集 1:

CName1CName2CName3
C1.1C2.1C3.1
C1.2C2.2C3.2
C1.3C2.3C3.3

資料集 2:

CName1CName2CName4
C4.1C5.1C6.1
C4.2C5.2C6.2
C4.3C5.3C6.3

依據各資料集中的資料欄位置執行聯集作業時,會併入資料集 1 的所有資料列,後面接著資料集 2 的所有資料列。您可以在每個來源資料集選擇要併入的資料欄。

輸出:

在上述說明中,請注意各資料集的第三個資料欄名稱不一樣 (CName3CName4)。

CName1CName2CName3CName4
C1.1C2.1C3.1
C1.2C2.2C3.2
C1.3C2.3C3.3
C4.1C5.1 C6.1
C4.2C5.2 C6.2
C4.3C5.3 C6.3

使用時機:

提示:您應該儘早在方案中執行聯集作業。

  • 如果資料集包含事件或記錄資訊,您可以使用聯集作業建立更長的交易序列。例如,您可以從每日記錄檔案中建立一週所有記錄資料的聯集。

如要建立您的資料集與另一資料集的聯集作業,請在方案面板的「轉換」文字方塊中輸入 Union datasets。請參閱方案面板

請參閱聯集頁面一文。

彙整

彙整作業可以結合兩個資料集,其作業的依據為兩個資料集均具有的資料欄,且該資料欄包含用於識別記錄的相同唯一值。依據這個資料欄中的值 (稱為主鍵),將第二個資料集的記錄與第一個資料集的記錄進行彙整。在彙整定義中,您可以從這兩個資料集中選取要併入的欄位,以及從合併後的資料集中篩選出重複或不需要的欄位。

這兩個資料集的彙整方式由彙整類型定義:

  • 內部彙整:只併入第一個資料集的索引鍵 (主鍵) 值在第二個資料集作為索引鍵 (外鍵) 值使用的記錄。
  • 左彙整:只併入含有第一個 (左側) 資料集的主鍵值的記錄。
    • 如果第一個資料集中的主鍵值並非做為第二個資料集中的外鍵,則所有從第二個資料集併入的資料欄均含有遺漏值。
    • 如果第二個資料集中的外鍵值並非第一個資料集中的鍵值,則輸出資料集不會產生任何資料列。
  • 右彙整:只併入含有第二個 (右側) 資料集的外鍵值的記錄。上述的其他條件會反向套用至這個彙整。
  • 外部彙整:併入兩個資料集中的所有記錄。如果任一資料集缺失鍵值,則從該資料集併入的資料欄值會是遺漏值。

使用時機:

提示:您應該在方案中儘可能最後執行彙整作業。

  • 當您需要依據鍵值的相符項目,從第二個資料集中提取所選欄位時,彙整作業將會十分實用。雖然執行這些作業的費用昂貴,但可以產生範圍更廣的輸出資料集。

如要將您的資料集和另一個資料集彙整在一起,請在「搜尋」面板中輸入 join。請參閱彙整面板一文。

查詢

查詢作業可以依據在第一個資料集的所選資料欄中包含的值,從另一個資料集提取參照欄位。第二個資料集通常是靜態或不常變動的資料集。

注意事項:查詢與左彙整類似。然而,查詢作業會將參照資料集中的所有欄位帶入產生的資料集,而原始資料集中的所有欄位則會自動併入。您可以在建立彙整時指定要併入輸出資料集的欄位。

例如,您可以建立如同下方範例的資料集:

State-2lettersState-full
ALAlabama
AKAlaska
AZArizona
WIWisconsin
WY懷俄明州

如果您的資料集包含雙字母縮寫,您可以對上述資料集執行查詢以擷取對應的完整名稱。這些完整名稱會插入原始資料集並命名為 State-full 資料欄,且與雙字母縮寫的資料集相鄰。

注意:如果從第一個資料集的資料欄取出的值不在第二個資料集中,則產出的 State-full 資料欄內將不會有對應值。

使用時機:

  • 查詢很適合用來參照必須在多個資料集中意義保持一致的共用資料集。您可以根據 CustomerId 或 ProductId 值,使用查詢作業來提取客戶或產品的主要資料 (客戶姓名、地址等)。

如要從資料集的某個資料欄執行查詢,請開啟資料欄的下拉式選單並選取 [查詢...]。請參閱查詢精靈一文。

匯總

匯總為單一資料集作業,用來對資料集內的資料欄執行加總計算,並依照一或多個資料欄的值選擇性地將資料分組。

例如,您的資料集包含您機構中所有商店的銷售點交易資訊。您可以在 Total_Sale 資料欄執行總和運算以使用匯總作業總結銷售總額。如果您將計算結果按照月份和 StoreId 分組,可以獲得每家商店每個月的每月銷售額。

使用時機:

  • 匯總作業適合用於對整個資料集或資料集區段執行探索性計算。

  • 您可以執行匯總作業及一些工作來產生結果。在您取得摘要報告後,可以回到「轉換器」頁面並移除匯總作業,以繼續疊加資料。

如要進一步瞭解資料欄內匯總作業,請參閱建立匯總一文。

如要進一步瞭解如何建立匯總資料透視表,請參閱透視資料一文。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁