本節說明如何透過 Cloud Dataprep by TRIFACTA® 與 Google Cloud Storage 環境互動。
Google Cloud Storage 用途
Cloud Dataprep by TRIFACTA 可使用 Google Cloud Storage 進行下列讀取和寫入工作:
- 透過應用程式上傳;檔案匯入 Cloud Dataprep by TRIFACTA 作為資料集時,檔案會上傳及儲存在 Google Cloud Storage 的某個位置。詳情請參閱使用者個人資料頁面一文。
- 從 Google Cloud Storage 檔案建立資料集:您可以讀取儲存在 Google Cloud Storage 的來源資料。來源可以是單一 Google Cloud Storage 檔案,或檔案結構相同的資料夾。請參閱下方的「讀取來源」。
- 讀取資料集:建立資料集時,您可以從 Google Cloud Storage 定義的另一個資料集提取資料。
- 寫入結果:執行工作後,您可以將結果寫回 Google Cloud Storage。
在 Cloud Dataprep by TRIFACTA 中,可透過使用者介面存取 Google Cloud Storage。請參閱 Google Cloud Storage 瀏覽器一文。
注意:Cloud Dataprep by TRIFACTA 對資料集執行工作時,來源資料不會受到影響。結果會寫入新的位置,所以不會有任何資料受到這個處理程序的干擾。
事前準備
您的管理員必須在 Google Cloud Storage 設定位置的讀取/寫入權限。請參閱 Google Cloud Storage 說明文件。
請避免讀取和寫入下列位置:
Cloud Dataprep by TRIFACTA 用於暫時儲存空間的「Scratch」(草稿區) 位置。
用於儲存從本機檔案上傳的資料的「Upload」(上傳) 位置。
如要進一步瞭解這些位置,請參閱使用者個人資料頁面一文。
在 Google Cloud Storage 中儲存資料
您的管理員應該會提供原始資料,或在 Google Cloud Storage 中儲存原始資料的位置和存取權。
- 所有 Cloud Dataprep 的使用者都應該清楚瞭解,Google Cloud Storage 中每個使用者可以讀取和寫入結果的資料夾結構。
- 使用者必須瞭解共享資料的位置,以及可儲存個人資料的位置,而不會干擾或混淆其他使用者。
注意:Cloud Dataprep by TRIFACTA 不會修改 Google Cloud Storage 中的來源資料。使用者可以讀取儲存在 Google Cloud Storage 的來源資料,無需在來源位置進行修改。上傳至平台的來源會儲存在系統指派給每個使用者的「Upload」(上傳) 位置。請參閱使用者個人資料頁面一文。
讀取來源
您可以使用儲存在 Google Cloud Storage 的一或多個檔案建立資料集。
萬用字元:
您可以將輸入路徑參數化,以便在匯入資料集時一併將其來源檔案匯入。詳情請參閱參數化總覽。
選取資料夾:
在 Google Cloud Storage 選取用來建立資料集的資料夾時,會一併選取該資料夾中的所有檔案。
這個選項會選取所有子資料夾中的所有檔案,並將這些檔案合併到單一資料集。如果子資料夾含有不同的資料集,則選取資料夾時應更具體指定選取內容。
- 用於單一匯入資料集的所有檔案都必須採用相同的格式,且具有相同的結構。例如,如果您要讀取單一目錄,則不能混合和比對 CSV 與 JSON 檔案。
讀取檔案格式:
在 Google Cloud Storage 中,Cloud Dataprep by TRIFACTA 可以讀取下列檔案格式:
- CSV
- JSON
- AVRO
- GZIP
- BZIP2
- TXT
- XLS/XLSX
- LOG
- TSV
建立資料集
建立資料集時,您可以選擇從儲存在 Google Cloud Storage 的來源,或從儲存在本機檔案的來源讀取資料。
- Google Cloud Storage 來源不會移動或變更。
- 本機檔案來源會上傳至 Google Cloud Storage 中指定的「Upload」(上傳) 位置,來源資料會保留在這個位置且不會變更。您可在使用者個人資料中指定此位置。請參閱使用者個人資料頁面一文。
資料可以是資料夾中的個別檔案或所有檔案。詳情請參閱上面的「讀取來源」。
寫入結果
產生工作結果時,可將這些結果儲存回 Google Cloud Storage。您可以在「Job Details」(工作詳細資料) 頁面透過「Output Destinations」(輸出目的地) 分頁取得 Google Cloud Storage 位置。請參閱工作詳細資料頁面。
如果您是使用 Google Cloud Storage 進行部署,請勿使用「Upload」(上傳) 位置作為儲存位置。此目錄用於儲存上傳資料,可能由多個使用者使用。操作本產品以外的檔案可能會毀損其他使用者的資料。請使用介面提供的工具來管理 Google Cloud Storage 中的上傳資料。
從結果建立新資料集
在寫入結果的過程中,您可以選擇建立新的資料集,這樣就能將資料疊加工作鏈接在一起。
附註:當您在結果中建立新的資料集時,系統即會將檔案寫入使用者帳戶的指定輸出位置。其他使用者能否存取這個位置,需視您的權限設定而定。