使用 Google Cloud Storage

本節說明如何透過 Cloud Dataprep by TRIFACTA® 與 Google Cloud Storage 環境互動。

Google Cloud Storage 用途

Cloud Dataprep by TRIFACTA 可使用 Google Cloud Storage 進行下列讀取和寫入工作:

  1. 透過應用程式上傳;檔案匯入 Cloud Dataprep by TRIFACTA 作為資料集時,檔案會上傳及儲存在 Google Cloud Storage 的某個位置。詳情請參閱使用者個人資料頁面一文。
  2. 從 Google Cloud Storage 檔案建立資料集:您可以讀取儲存在 Google Cloud Storage 的來源資料。來源可以是單一 Google Cloud Storage 檔案,或檔案結構相同的資料夾。請參閱下方的「讀取來源」。
  3. 讀取資料集:建立資料集時,您可以從 Google Cloud Storage 定義的另一個資料集提取資料。
  4. 寫入結果:執行工作後,您可以將結果寫回 Google Cloud Storage。

在 Cloud Dataprep by TRIFACTA 中,可透過使用者介面存取 Google Cloud Storage。請參閱 Google Cloud Storage 瀏覽器一文。

注意:Cloud Dataprep by TRIFACTA 對資料集執行工作時,來源資料不會受到影響。結果會寫入新的位置,所以不會有任何資料受到這個處理程序的干擾。

事前準備

您的管理員必須在 Google Cloud Storage 設定位置的讀取/寫入權限。請參閱 Google Cloud Storage 說明文件。

請避免讀取和寫入下列位置:

Cloud Dataprep by TRIFACTA 用於暫時儲存空間的「Scratch」(草稿區) 位置。

用於儲存從本機檔案上傳的資料的「Upload」(上傳) 位置。

如要進一步瞭解這些位置,請參閱使用者個人資料頁面一文。

在 Google Cloud Storage 中儲存資料

您的管理員應該會提供原始資料,或在 Google Cloud Storage 中儲存原始資料的位置和存取權。

  • 所有 Cloud Dataprep 的使用者都應該清楚瞭解,Google Cloud Storage 中每個使用者可以讀取和寫入結果的資料夾結構。
  • 使用者必須瞭解共享資料的位置,以及可儲存個人資料的位置,而不會干擾或混淆其他使用者。

注意:Cloud Dataprep by TRIFACTA 不會修改 Google Cloud Storage 中的來源資料。使用者可以讀取儲存在 Google Cloud Storage 的來源資料,無需在來源位置進行修改。上傳至平台的來源會儲存在系統指派給每個使用者的「Upload」(上傳) 位置。請參閱使用者個人資料頁面一文。

讀取來源

您可以使用儲存在 Google Cloud Storage 的一或多個檔案建立資料集。

萬用字元:

您可以將輸入路徑參數化,以便在匯入資料集時一併將其來源檔案匯入。詳情請參閱參數化總覽

選取資料夾:

在 Google Cloud Storage 選取用來建立資料集的資料夾時,會一併選取該資料夾中的所有檔案。

  • 這個選項會選取所有子資料夾中的所有檔案,並將這些檔案合併到單一資料集。如果子資料夾含有不同的資料集,則選取資料夾時應更具體指定選取內容。

  • 用於單一匯入資料集的所有檔案都必須採用相同的格式,且具有相同的結構。例如,如果您要讀取單一目錄,則不能混合和比對 CSV 與 JSON 檔案。

讀取檔案格式:

在 Google Cloud Storage 中,Cloud Dataprep by TRIFACTA 可以讀取下列檔案格式:

  • CSV
  • JSON
  • AVRO
  • GZIP
  • BZIP2
  • TXT
  • XLS/XLSX
  • LOG
  • TSV

建立資料集

建立資料集時,您可以選擇從儲存在 Google Cloud Storage 的來源,或從儲存在本機檔案的來源讀取資料。

  • Google Cloud Storage 來源不會移動或變更。
  • 本機檔案來源會上傳至 Google Cloud Storage 中指定的「Upload」(上傳) 位置,來源資料會保留在這個位置且不會變更。您可在使用者個人資料中指定此位置。請參閱使用者個人資料頁面一文。

資料可以是資料夾中的個別檔案或所有檔案。詳情請參閱上面的「讀取來源」。

寫入結果

產生工作結果時,可將這些結果儲存回 Google Cloud Storage。您可以在「Job Details」(工作詳細資料) 頁面透過「Output Destinations」(輸出目的地) 分頁取得 Google Cloud Storage 位置。請參閱工作詳細資料頁面

如果您是使用 Google Cloud Storage 進行部署,請勿使用「Upload」(上傳) 位置作為儲存位置。此目錄用於儲存上傳資料,可能由多個使用者使用。操作本產品以外的檔案可能會毀損其他使用者的資料。請使用介面提供的工具來管理 Google Cloud Storage 中的上傳資料。

從結果建立新資料集

在寫入結果的過程中,您可以選擇建立新的資料集,這樣就能將資料疊加工作鏈接在一起。

附註:當您在結果中建立新的資料集時,系統即會將檔案寫入使用者帳戶的指定輸出位置。其他使用者能否存取這個位置,需視您的權限設定而定。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁