附加資料集

如要疊加資料集以呈現交易式資料或序列化資料,您可以將多個資料片段連接在一起以建立較大的資料集,藉此享有更豐富的分析功能。舉例來說,假設您每週都會清理記錄訊息,那麼您可以針對每天的記錄訊息建立不同的資料集,然後將所有資料集統整成單一資料集,以透過單一方案進行處理。如果資料集的結構相同或非常類似,就很適合使用這種方法。

以下是兩個聯絡資訊資料集。這些簡化的資料集是用來追蹤客戶聯絡記錄。

Dataset01:

姓名電子郵件上次聯絡時間
Jack Jonesjack@example.com06/15/2015
Tina Tomstinat@example.com08/02/2015
Larry Lyonslarry.lyons@example.com03/22/2015


Dataset02:

姓名上次聯絡日期電子郵件
Amy Abrams07/24/2015amy.abrams@example.com
Tina Toms05/12/2015tinat@example.com
Samantha Smith04/22/2015samantha@example.com


注意事項:

  • Tina Toms 有一筆重複的記錄。
  • 有一個資料欄名稱不一致 (「上次聯絡時間」和「上次聯絡日期」)。
  • 各個資料欄的順序不同。

步驟:

  1. 載入第一個資料集 (Dataset01)。
  2. 在「方案」面板中新增步驟,然後在「轉換」文字方塊中,輸入 union
  3. 在「聯集」頁面中,根據一組共有的欄位結合兩個以上的資料集。
    1. 「聯集」作業可以將多個資料集連接在一起。詳情請參閱聯集頁面一文。
  4. 如要新增其他資料集,請按一下 [新增資料集],找出您要新增到聯集 (Dataset02) 中的檔案,然後選取該檔案。
  5. 系統一開始會根據資料欄名稱建立對應的欄位。不過,本範例不包含 Dataset02Last_Contact_Date 欄位。在此情況下,您可以:
    1. 在左側面板中按一下 Last_Contact_Date 欄位旁邊的 + 圖示,另外新增這個欄位。不過,該欄位與原始資料集中的另一個聯絡日期欄位不相符。
    2. 在「比對資料欄」下拉式選單中,選取 [依位置]。本範例中只有三個欄位,但順序並不相符。

      提示:如果可能的話,在建立聯集轉換步驟之前,請先變更資料集中資料欄的名稱,或讓資料欄保持一致,否則您可能得在聯集作業完成後編輯資料欄。

      如要變更資料欄名稱,請在「轉換」頁面的資料欄下拉式選單中,按一下 [重新命名]。您可以使用同一個下拉式選單移動資料欄。

  6. 在此範例中,您可以取消聯集作業,並將 Dataset01 中的 Email 資料欄位置移到 Last Contact 資料欄後面。
  7. 接著,請再次開啟「聯集」頁面,然後新增 Dataset02,接著在「比對資料欄」下拉式選單中,選取 [依位置]。系統隨即會比對資料欄。
  8. 按一下 [新增至方案]

Dataset02 記錄現已新增到 Dataset01,後者現在包含兩個資料集的所有記錄。請注意,在連接的資料集中,Tina Toms 的記錄出現兩次。

  • 如果連接的資料集包含所有聯絡記錄,則應保留重複的記錄。
  • 如果附加的資料集包含最近與各個客戶聯絡的記錄,則應移除重複的記錄。詳情請參閱簡化資料一文。

注意:請務必確認各個資料欄的資料類型是否正確。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁