驗證您的資料

清理、強化及轉換資料的處理程序會對資料造成重大改變,而部分改變結果可能並非如您預期。本頁面提供資料整理工作從開始到完成的資料集驗證秘訣和技巧。

資料驗證可分為下列種類:

  • 一致性:您的資料是否符合預期值?欄位值是否與資料欄的資料類型相符?值是否落在可接受的範圍內?資料列是否為唯一或重複的?
  • 完整性:資料是否包含所有預期值?部分欄位的值是否遺漏?資料集中是否有未出現的預期值?

事前準備

開始建構資料管道之前,您應先確定資料品質的標準。

注意事項:視您的來源系統而定,您或許可以從來源系統中產生資料品質報告。這些報告可做為在 Cloud Dataprep by TRIFACTA® 中驗證工作的依據。

如果您的來源系統未啟用產生報告的功能,將資料載入 Cloud Dataprep by TRIFACTA 時,應考慮儘快剖析資料。

驗證下游需求

在開始修改資料集之前,您應先檢查資料集的下游消費者所預期的資料欄及其值的範圍。對資料快速進行檢查能引導您判斷出資料集中需要端對端驗證的主要區域。

識別重要欄位

如果資料集具有許多資料欄,對所有欄位套用相同的驗證可能會產生問題。在這些情況下,您可能需要決定哪些資料欄的一致性、完整性和精確性最重要。

剖析來源資料

在開始建構資料集的方案之前,建議您先建立來源資料的視覺化數據。此處理程序會在您將資料集載入轉換頁面後,為資料集建立最低限度的方案。接著,請執行工作以便產生資料檔,這個資料檔可做為驗證資料的基準,並能協助您對發現到的任何資料問題來源進行偵錯。

將資料進行視覺化剖析也會產生資料集中每個資料欄值的統計資料。您可以使用這項統計資訊評估來源資料的整體品質。此視覺化數據資訊為工作記錄的一部分,工作執行結束後仍會留在系統中。

詳情請參閱剖析您的來源資料

產生新的隨機樣本

資料集初次載入至轉換頁面時,預設的取樣作業會依各資料列的大小和密度收集前 N 列的資料。然而,未出現在首個樣本中的資料在資料集中可能會有所變化。詳情請參閱樣本面板

驗證一致性

Cloud Dataprep by TRIFACTA 提供的實用功能,有助於檢查資料在所有資料列中是否一致。透過幾個方案步驟,您就可以建立自訂驗證檢查來驗證值。

不相符值

在資料欄頂端的資料品質長條圖中,您可以查看有效 (綠色)、不相符 (紅色) 和遺漏 (黑色) 的值。

點選紅色長條後:

  • 系統會在資料網格中顯目顯示含有不相符值的資料列。
  • 應用程式會透過建議資訊卡提供建議,指出轉換資料的方法。

或許您不確定該如何處理資料。如果您要同時檢查所有資料列,可以在方案中插入轉換指令,如下所示:

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 ismismatched(Primary_Website_or_URL, ['Url'])
參數:新資料欄名稱 mismatched_Primary_Website_or_URL

上述轉換指令會檢查 Primary_Website_or_URL 資料欄的值是否符合 Url 資料類型。如果來源資料欄的值不是有效網址,則新資料欄值為 true

離群值

您可以透過「資料欄詳細資料」面板查看個別資料欄的統計資訊。如要開啟該面板,請從資料欄的下拉式選單選取 [資料欄詳細資料...]

在「Summary」(摘要) 區域中,您可以查看離群值的計數。Cloud Dataprep by TRIFACTA 將離群值定義為與資料欄值的平均值相差超過 4 個標準差的任何值。

「Column Details」(資料欄詳細資料) 面板也包含:

  • 有效值、唯一值、不相符值及遺漏值的計數。
  • 分成四等份,並提供最大值、最小值及平均值的相關資訊。

詳情請參閱資料欄詳細資料面板

可用的統計資料視資料欄的資料類型而定。詳情請參閱尋找離群值

資料範圍檢查

標準差範圍

舉例來說,值的範圍不符合應用程式對離群值的定義,且您需要識別出與平均值相差 5 個標準差以上的值。

您可以建立自訂轉換,以評估與特定資料欄平均值相差的標準差。詳情請參閱尋找離群值

固定值範圍

如果您需要測試資料欄值與兩個固定值的比較,可以使用下列轉換指令。此轉換測試會評估資料欄值。如果 Rating 資料欄中的值少於 10 或大於 90,則產生的資料欄值是 true

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 ((Rating < 10) || (Rating > 90))
參數:新資料欄名稱 Outlier_Rating

重複資料列

您可以測試整個資料列是否重複。deduplicate 轉換可讓您移除相同的資料列。提醒您,評估時會將空格和大小寫差別視為不同的資料列。詳情請參閱簡化資料

唯一性檢查

資料欄詳細資料面板含有個別資料欄內唯一值數量的指標。如果這個值不符合樣本中值與資料列的計數,則代表某些值重複。請記住,這些計數只適用於轉換頁面中的樣本,與整個資料集的測量結果未必一致。請參閱資料欄詳細資料面板

您可以執行臨時測試,檢查個別值的唯一性。詳情請參閱簡化資料

允許的字元檢查

您可以使用規則運算式測試個別資料欄是否具有允許的字元。如果欄位中的所有字元均為英數或空格字元,則下列轉換指令的評估結果為 true

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 MATCHES(MarketName, /^[a-zA-Z0-9 ]*$/)

您可以在方括號中新增其他允許的字元。詳情請參閱文字配對

驗證完整性

Cloud Dataprep by TRIFACTA 提供各種方法,協助您輕鬆判斷儲存格是否為遺漏值或含有空值。您也可以建立查詢來判斷資料集是否沒有表示這些值。

遺漏值

在每個資料欄頂端的資料品質長條圖中,黑色長條是表示資料欄中不含值的儲存格數目。這個值集包括遺漏值。

按一下黑色長條,系統會顯示一組建議資訊卡,提示您如何處理這些值。

詳情請參閱尋找遺漏資料

空值

雖然空值與遺漏值分在同一類,但這兩者並非一樣。在某些情況下,可能需要區分資料集中實際的空值,有幾種 Wrangle 指令能協助您找出空值。請參閱管理空值

未出現的值

您也可以測試您的資料集是否至少包含一組值的一個例項。

例如,您的資料集包含全美國的公司。您可能會想要檢查每個州是否均出現在數據集中。

步驟:

  1. 建立參照資料集,其中包含您要檢查的每個項目的單一例項。本範例使用簡單的 CSV 檔案,每行均有一個州名。

    提示:對於第二個資料集,您可能想要新增包含 true 值的第二個資料欄,這可讓您將個別的驗證資料與彙整的資料欄分開。

  2. 將這個 CSV 檔案當成新資料集新增至您的流程。
  3. 開啟來源資料集。在方案面板的「轉換」文字方塊中,輸入 join
  4. 在「彙整」面板中:
    1. 選取您剛剛建立的參照資料集。按一下 [Accept],接著點選 [Next]。
    2. 選取要執行的彙整類型:
      1. 右外彙整:如果要刪除來源資料集中在參照資料集內沒有鍵值的資料列,請選取此彙整類型。在本範例中,系統會從產生的資料集中移除沒有「State」資料欄值的所有資料列。
      2. 完整外部彙整:選取此類型可以保留所有資料,包括來源中不含鍵值的資料列。
    3. 選取兩個待彙整的欄位。在本範例中,您會選取兩個標示州值的欄位。按一下 [Next]。
    4. 選取您要納入最終資料集的欄位。按一下 [Review]
    5. 按一下 [Add to Recipe]
  5. 產生的資料集會包含您指定的所有欄位。
  6. 針對其中一個鍵值點選黑色長條,並選取受影響資料列數的連結,即會將資料列載入資料窗格中。檢查每個鍵值資料欄中的遺漏值。
  7. 如要移除這些資料列,請在資料品質長條圖中選取適當資料欄的遺漏值種類,然後套用刪除陳述式。

  8. 產生的指令應如下所示:

    轉換名稱 Delete rows
    參數:條件 ISMISSING([State])

詳情請參閱彙整面板

轉換後

產生輸出資料檔

完成方案之後,您應使用已執行完成的工作產生資料檔。您可以在不同的瀏覽器分頁中開啟這個資料檔以及為來源資料建立的資料檔,以評估在整理過程中資料保持的一致性與完整性程度。

注意事項:您應將所生資料檔中的統計資訊與來源產生的統計資訊進行比較,這樣就能識別您的變更是否對這些值造成原本不想要的改變。

決策

執行資料驗證檢查後,您可能需要制定決策,以決定如何解決可能遇到的問題:

  • 部份資料問題可能產生於來源系統中。如果您打算使用此系統的其他來源,應嘗試在來源中修正這些問題。必要時,應重新產生來源資料。
  • 部分資料品質問題可以忽略。為了資料的下游消費者著想,您可以在資料集中備註可能發生問題的資訊。請務必告知使用者如何識別此資訊。
本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁