匯入資料頁面

您可以透過「匯入資料」頁面上傳資料集,或是從儲存在已連結資料儲存庫中的來源選取資料集。在「Library」頁面中,按一下 [Import Data]

圖:「Import Data」頁面

若要匯入新資料:

附註:對於檔案型的來源,Cloud Dataprep by TRIFACTA® 預期匯入檔案中的每一列都是以一致的換行字元結尾,包含檔案中的最後一列。

  • 如果單一檔案缺少這個結尾的換行字元,系統可能會捨棄最後一筆記錄。

注意事項:以檔案為基礎的外部資料儲存庫會受到下列限制:

  • 只能擷取前 10,000 個檔案。
  • 第一個樣本從目錄的檔案中提取,最多可以提取前 100 個檔案。如果這 100 個檔案的大小不到 10 MB,Transformer 頁面會指出這代表完整資料集。
  • 匯入時,在流程檢視頁面的報告中所計算的檔案大小會超過前 10,000 個檔案。
  • 即使檔案數量超過 10,000 個,系統仍會對所有目錄中的檔案執行工作。

  1. 連接到資料的來源:

    附註:系統會辨識壓縮檔案,並可根據其副檔名執行匯入。

    1. 上傳:Cloud Dataprep by TRIFACTA® 也可以從您的本機檔案系統載入檔案。

      提示:您可以從桌面拖曳檔案來進行上傳。

      若要變更上傳位置,請按一下 [Edit],並前往偏好的 Google Cloud Storage 位置。

    2. Google Cloud Storage:瀏覽或搜尋您的 Google Cloud Storage 檔案並選取要匯入的內容。請參閱 Google Cloud Storage 瀏覽器

      BigQuery:瀏覽您的 BigQuery 執行個體,尋找要做為資料集匯入的資料表。

      如果您擁有多個專案的讀取權限,可以讀取屬於其他專案的資料表。請參閱 BigQuery 瀏覽器

      附註:當使用的資料集來源為 Avro 檔案時,系統不支援歷程資訊和 SOURCEROWNUMBER 函式。

    3. 若要進一步瞭解支援的輸入格式,請參閱支援的檔案格式

  2. 新增資料集:
    1. 如果您已找到來源目錄或檔案,只要按一下該目錄或檔案旁的加號圖示,即可將該目錄或檔案新增為資料集。

      提示:您可以同時匯入多個資料集。如下所示。

    2. Excel 檔案:按一下父項工作簿旁的加號圖示,將所有工作表新增為單一資料集,或將個別的工作表新增為個別資料集。請參閱匯入 Excel 資料

  3. 選取資料集後,畫面右側會出現下列欄位。您可以依照個人需求進行修改:
    1. 資料集名稱:這個名稱會顯示在介面中。
    2. 資料集說明:您可以新增說明內容 (選填),提供有關資料集的其他詳細資訊。此資訊也會顯示在介面的某些區域中。

      提示:在匯入前先按一下眼睛圖示來檢查資料集的內容。

  4. 您可以選取單一資料集或多個資料集進行匯入。

  5. 您可以修改匯入個別檔案時使用的設定。請在個別資料集的資訊卡中,按一下 [Edit Settings]

    注意事項:預覽畫面中的資料列數量會經過四捨五入,因此有時在匯入資料集後,資料預覽畫面和資料格線中的資料列數量可能會有出入。

    1. 每個檔案的編碼方式:根據預設,Cloud Dataprep by TRIFACTA 會嘗試解讀檔案使用的編碼方式。在某些情況下,資料預覽面板可能會因編碼不符而包含亂碼資料。在「資料預覽」對話方塊中,您可以為檔案選取不同的編碼方式。選取正確的編碼方式後,資料便會如預期般顯示在預覽畫面中。

    2. 偵測結構:根據預設,Cloud Dataprep by TRIFACTA 會在匯入期間嘗試解讀資料結構。這個結構化作業會嘗試將初始的表狀結構套用至資料集。
      1. 除非初始結構發生特定問題,否則應維持啟用「偵測結構」設定。依據這些已匯入資料集所建立的方案會在第一個隱藏步驟自動加入此結構化作業。您無法編輯這些隱藏步驟,但可以透過方案面板移除。請參閱方案面板
      2. 停用結構偵測功能時,未偵測到結構定義的已匯入資料集會加上「非結構化資料集」標籤。為這類非結構化資料集建立方案時,結構化步驟會新增至方案中並可視需要加以編輯。
      3. 詳情請參閱初始剖析步驟
    3. 資料欄資料類型推測:您可以選擇是否要對個別資料集套用 Cloud Dataprep 類型推測。

      1. 在預覽面板中,您可以看到在匯入資料集後會套用的資料類型。這個資料類型可能會依據該資料集是否啟用資料欄資料類型推測而改變。

      2. 若要啟用 Cloud Dataprep 類型推測,請選取「Column Data Type Inference」(資料欄資料類型推測) 核取方塊。

        提示:若要查看 Cloud Dataprep 類型推測的效果,您可以切換核取方塊,並查看個別資料欄頂端所列出的資料類型。若要覆寫個別資料欄的資料類型,請按一下資料類型名稱並選取新的值。

  6. 如果您已經選取要匯入的單一資料集:

    1. 若要立即整理資料集,請按一下 [Import & Wrangle] (匯入及整理)。系統即會匯入資料集,並建立資料集的方案、加入流程,接著載入轉換頁面以執行資料整理作業。請參閱轉換器頁面
    2. 若要匯入資料集,請按一下 [Import] (匯入)。系統即會建立已匯入的資料集。您稍後可以將該資料集加入流程,並建立資料集的方案。請參閱資料庫頁面
  7. 如果您選取了多個要匯入的資料集:
    1. 若要匯入選取的資料集,請按一下 [Import Datasets] (匯入資料集)。系統即會建立已匯入的資料集。您可以立即或稍後再開始使用這些已匯入的資料集。
    2. 若要匯入選取的資料集並將其加入流程:
      1. 按一下 [Add Dataset to a Flow] 核取方塊。
      2. 按一下文字方塊以查看可用的流程,或輸入新的名稱。
      3. 按一下 [Import & Add to Flow]
      4. 系統將會匯入資料集,並建立相關的方案。這些資料集和方案都會新增至選取的流程中。
      5. 您可以預覽任何已新增至流程的資料集,並對該資料集執行動作。請參閱流程檢視頁面
  8. 如果您沒有立即疊加資料集,則剛剛匯入的資料集會列在資料庫頁面的頂端。請參閱資料庫頁面

匯入多個資料集

您可以同時從多個來源匯入多個資料集。只要在「匯入資料」頁面中繼續選取來源,右側面板中就會多出其他資料集資訊卡。

注意事項:如果您同時從多個檔案匯入,系統不一定會按有規律或可預測的順序讀取這些檔案。

附註:若您匯入的資料集具有來自多個檔案的參數,則在右側面板中僅會顯示第一筆相符的檔案。

在右側面板中,您可以查看每個資料集的預覽畫面,並視需要進行變更。

圖:匯入多個資料集

  • 若要從匯入移除資料集,請按一下資料集資訊卡的 X。
  • 若要將資料集新增至流程,請勾選核取方塊,接著選取現有的流程或輸入新流程的名稱以納入資料集。
  • 若要匯入資料集,請按一下 [Import] 或 [Import & Add to Flow]
本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁