彙整面板

在 Cloud Dataprep 應用程式的「Join」(彙整) 頁面中,您可以根據兩個資料集共有的資訊,將目前的資料集與另一個資料集或方案互相彙整。例如有兩組地區銷售資料均使用產品 ID 來追蹤銷售量,您可以依據產品 ID 彙整這兩組資料。做法是在「Search」(搜尋) 面板中輸入 join datasets,或從工具列選取這個選項。

  • 彙整是一種將兩個不同資料集中的資料合併在一起的標準作業。下面提供部分的彙整相關資訊。
  • 您不能對物件或陣列資料類型的資料欄執行彙整。
  • 彙整作業與聯集作業不同。在聯集作業中,假設資料欄相同或非常類似,系統會將一或多個資料集的資料附加至當前的資料集。詳情請參閱聯集頁面一文。

提示:視您需要執行的作業類型而定,您可能必須提早或延後在方案中執行彙整作業。詳情請參閱將工作處理流程最佳化

注意:Unnest、union 或 join 轉換可能會大幅增加資料集中的資料列或資料欄數量。為了避免瀏覽器記憶體超載,應用程式可以對結果套用限制功能,來刻意限制顯示在樣本中的資料列數。您可以視需要產生新的樣本。工作執行期間並不會套用這個限制。

事前準備

  • 查看您的記錄數:在您指定彙整之前,應先查看您的記錄數與索引鍵的唯一性,這兩項可讓您知道可能會在輸出內容中顯示的記錄數量。提醒您,輸出記錄數取決於彙整類型和彙整鍵之間的相符項目。
  • 查看您的彙整鍵值:如果彙整鍵中的值具有差異,可能會在已彙整資料集中產生重複的記錄。請檢查彙整鍵中是否有不相符值或遺漏值。如有可能,請更正這些值。
  • 查看資料的精細程度: 如果結合後的資料不及來源的精確程度,可能會導致記錄相符項目並非確實與資料符合。舉例來說,如果將彙整中時間戳記的取樣率降低,從毫秒改為秒,您可能會取得秒數符合,但在毫秒方面卻與來源資料不同的「相符」時間戳記。

步驟 1:選取資料集

在「Search」(搜尋) 面板中輸入 join

在「Choose Datasets to Join」(選擇要彙整的資料集) 對話方塊中,選取想要與目前資料集彙整的資料集。

圖:選取要彙整的資料集

您可以透過「Data」(資料) 分頁預覽所選物件中的資料。

注意:如要將物件和您的資料集彙整,您必須具備該物件的讀取權限。

  • 使用搜尋列找出特定資料集。
  • 按一下 [Accept] (接受)

步驟 2:選取彙整條件

在下個步驟中,您需要指定彙整類型和一或多個彙整鍵。

圖:指定彙整類型和彙整鍵。

彙整類型:

在下拉式選單選取要套用的彙整類型。詳細說明請參閱下方的彙整類型。

彙整鍵:

在上方的圖片中,平台已經確定使用「地區 1」資料的項目編號 (Item_Nbr) 欄位及 REF_PROD 的項目編號 (ITEM_NBR) 欄位做為彙整作業的索引鍵。

  • 如要變更這兩個彙整鍵,請將滑鼠懸停在指定的鍵上。
    • 如要移除做為彙整鍵的兩個資料欄,請按一下 X 圖示。
    • 如要編輯想使用的彙整鍵和其他彙整鍵的選項,請按一下「鉛筆」圖示。詳情請參閱下方說明。
    • 如要新增更多彙整鍵,請按一下 [Add] (新增)

      注意:套用多個彙整鍵時,請小心謹慎。如果執行這個類型的彙整,可能會大幅增加產出資料的大小,實際狀況視彙整類型而定。

編輯彙整鍵:

根據預設,系統會以區分大小寫的方式,對所選資料欄中的鍵值執行嚴格的彙整鍵比對。在某些情況下,放寬條件可能有助於找出相符項目。下列選項會套用至兩個來源的彙整鍵資料欄,以嘗試找出相符項目。執行彙整之後,系統就不會依照這些選擇變更任一資料欄中的資料。

選項說明
模糊比對

為了進行鍵值比對而使用模糊比對演算法。

提示:使用這個選項為資料集之間的主鍵進行模糊彙整比對。

模糊比對會使用 doublemetaphone 演算法對字串 (索引鍵) 進行比對。各個鍵值的兩個主要編碼必須相符。詳情請參閱 DOUBLEMETAPHONEEQUALS 函式

忽略大小寫比對時忽略彙整鍵值之間的大小寫差異。
忽略特殊字元在測試相符項目之前,忽略所有非英數字元、帶有重音的拉丁字元或空格字元。
忽略空格字元忽略所有空格字元,包含空格、跳格字元、回車字元及換行符號。

彙整鍵摘要:

您可以使用這些指標找出彙整鍵和輸出內容中產生的資料列計數精確比對的可能性。

點選 [Next] (下一步)。

步驟 3:選取輸出資料欄

您可以在所選資料集中指定要包含在輸出內容中的資料欄。

圖:選取輸出資料欄

選取資料欄:

查看可用的資料欄清單,兩個資料來源均會顯示此清單。

  • 使用搜尋面板搜尋特定資料欄。
  • 如何納入所有資料欄:
    • 點選 [All] (全部)、[Current] (目前) 或 [Joined-In] (已彙整) 分頁標籤。
    • 點選清單頂端的核取方塊。

進階選項

名稱前置字元

您可以為已彙整資料集中的資料欄名稱套用前置字元,以便在繁雜的資料集中追蹤特定資料欄的來源。舉例來說,您可以為所有來自 salesRegion01 資料集的資料欄名稱前方加上 sR01 前置字元。

  • 為「目前」資料的資料欄加上名稱前置字元:輸入前置字元,以便套用至已彙整輸出內容中顯示的目前資料集所產生的資料欄名稱。
  • 為「已彙整」資料的資料欄加上名稱前置字元:輸入前置字元,以便套用至已彙整輸出內容中顯示的已彙整資料集所產生的資料欄名稱。

動態更新彙整

在您將另一組資料進行彙整後,該資料的後續變更都會自動反映在彙整的輸出內容中:

  • 包含「目前」資料中所有資料欄:動態更新一律會包含來自目前資料集的最新資料。
  • 包含「已彙整」資料中所有資料欄:動態更新一律會包含來自已彙整資料集的最新資料。

注意:在方案中新增彙整後,如果資料網格為空白,代表您於彙整中指定的索引鍵可能在目前選取的樣本中沒有相符項目,您應重新查看彙整所用的索引鍵。如果彙整仍在目前樣本中產生空白網格,代表您應該收集新的樣本。請參閱樣本面板一文。

提示:如果您必須將執行彙整的資料集中的資料凍結,則應該以快照建立該資料集的複本並在該複本中執行彙整。請參閱資料集詳細頁面一文。

如要在複本中執行彙整,請編輯彙整並變更彙整作業的來源。請參閱修正相依性問題

按一下 [Save and Continue] (儲存並繼續)。

選取資料欄和任何進階設定後,請按一下 [Review] (檢閱)

步驟 4:檢閱彙整

檢閱您指定的彙整。如要修改任何部分,請按一下 [Edit] (編輯)

圖:檢閱彙整

如要將指定的彙整加入您的方案,請按一下 [Add to Recipe] (新增至方案)。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁