剖析來源資料

您可能想要針對從來源匯入的資料執行剖析。只要您是從來源建立方案,就可以執行工作以便剖析資料集。

只要將資料載入轉換頁面並進行剖析後,您就可以評估下列事項:

  • 識別來源中的問題,並可能在來源系統中更正。
  • 建立基準以評估您在 Cloud Dataprep by TRIFACTA® 中執行的資料疊加工作。
  • 識別不相符或遺漏值。

提示:您也可使用此技巧來產生您來源資料的輸出,這在您沒有 Cloud Dataprep by TRIFACTA 以外資源的讀取權限時十分實用。

步驟:

  1. 從來源建立匯入的資料集。將該資料集加入流程。請參閱匯入資料頁面
    1. 根據您資料的結構方式,您可以選擇停用「Detect Structure」(檢測結構)。詳情請參閱初始剖析步驟
  2. 在流程視圖中,為匯入的資料集建立方案。請參閱流程檢視頁面
  3. 在流程視圖中,編輯新建立的方案。在轉換頁面中開啟該方案。請參閱轉換頁面
  4. 必要時,在資料集中新增標頭步驟。
  5. 按一下 [執行工作]
  6. 在執行工作頁面中,選取下列選項:
    1. CSV 格式 (您需要至少一種格式來產生資料的剖析)。
    2. 選取剖析結果。
  7. 按一下 [執行工作]
  8. 產生結果時,按一下 [檢視結果]

  9. 畫面上會顯示資料集的剖析。

在產生的剖析中,您可以識別:

  • 每個資料欄中的遺漏或不相符值
  • 統計資料分成四等份
  • 開始的資料集大小與基準工作執行速度

提示:您可以記下資料集的整體統計資料,這在驗證透過方案套用的變更時非常實用。

您也可以下載資料集以便保留記錄。請參閱工作詳細資料頁面

保留來源視覺化設定檔

如果您想保存執行設定檔或從您的資源收集結果的能力,您可以執行如下的作業:

  1. 在「Flow View」(流程檢視) 中,選取用於建立來源設定檔方案。
  2. SourceData 為形式重新命名方案。
  3. 在此方案外建立輸出。若您尚未建立視覺化設定檔,請執行工作。
  4. 再次選擇方案。現在,按一下 [Add New Recipe] (新增新方案)
  5. 編輯此新方案並建構您的轉換步驟。
  6. 在您需要重新產生來源設定檔時,請選擇 SourceData 方案並從中選擇輸出。然後,執行工作。

    提示:若您要以重新整理的資料定期替換來源資料集,此技巧將十分實用。

請參閱流程檢視頁面

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁