執行工作頁面

在「Run Job」(執行工作) 頁面中,您可以針對目前載入的資料集指定轉換和剖析工作。可用選項包含輸出格式和輸出目的地。

提示:產生的輸出中仍會顯示隱藏於轉換頁面的資料欄。在您執行工作前,應先確定輸出可包含目前所有的隱藏資料爛。

圖:執行工作頁面

選項

剖析結果:您可以選擇停用輸出剖析,如此一來可以改善整體工作執行的速度。剖析工作結束後,您可以透過「Job Results」(工作結果) 頁面查看詳細資訊,包括下載結果的連結。

附註:由於四捨五入的緣故,有效、遺漏或不相符資料欄值的百分比加總可能不會是 100%。

請參閱工作詳細資料頁面

發布動作

您可以新增、移除或編輯這項工作所產生的輸出。依據預設,目的地清單中會包含所選資料儲存庫上用於主目錄的 CSV 輸出,如有需要,您也可以移除這項輸出。您必須加入至少一個輸出目的地。

資料欄:

  • 動作:使用於輸出的動作和格式清單。
  • 位置:輸出要寫入的目錄和檔案名稱或表格資訊位置。
  • 設定:識別可用於發布的輸出格式和任何壓縮 (如果適用)。

動作:

  • 如要變更輸出的格式、位置和設定,請按一下「編輯」圖示。
  • 如要刪除輸出,請按一下「X」圖示。

新增發布動作

從左側資料欄中的可用資料儲存庫選取發布目標。

圖:新增發布動作

附註:請勿建立可套用至相同檔案或資料庫表格的獨立發布動作。

步驟:

  1. 選擇發布目標。按一下左側資料欄的圖示。
    1. BigQuery:您可以發布結果至目前專案,或是您擁有存取權的不同專案。

      注意:對於您要發布結果的 BigQuery 資料庫,您必須擁有其讀取和寫入權限。詳請請參閱使用 BigQuery一文。

      如要發布至不同的專案,請按一下首頁導航標記追蹤的 BigQuery 連結。然後,在您想要發布工作結果的位置上輸入用於專案的 ID。

      提示:您的專案和其 ID 可用來瀏覽 Cloud Dataprep by TRIFACTA 選單列。請參閱 UI 參考資料一文。

      按一下 [Go] 前往您希望寫入 BigQuery 結果的資料庫。詳請請參閱 BigQuery 瀏覽器一文。

  2. 找出發布目的地:請執行以下其中一項動作:

    1. 探索:

      注意:您要發布之前,必須先確定該發布位置已存在。發布使用者必須擁有該發布位置的寫入權限。

      針對 Google Cloud Storage,您可以在可存取的位置上建立新資料夾。
      1. 如果要在目前的目錄中排序列表,請按一下任何資料欄名稱旁的脫字符號。
      2. 針對大型目錄,則使用分頁控制項瀏覽。
      3. 使用導航標記追蹤探索目標資料儲存庫。視需要前往至資料夾。
    2. 搜尋:僅在目前檔案內使用搜尋列來搜尋特定位置。
    3. 手動輸入:按一下「Edit」(編輯) 圖示在目的地中手動編輯或貼上。
  3. 建立資料夾:視儲存目的地而定,您可以按一下它來建立新資料夾,並將新資料夾用於目前所選項目的內部工作。資料夾名稱請勿包含空格。
  4. 建立新檔案:在要儲存資料集的檔案下方輸入檔案名稱。

    1. 選取資料儲存格式。
    2. 支援的輸出格式:
      1. CSV
      2. JSON
      3. Avro
    3. 如果連線至 BigQuery,您也可以編寫為 BigQuery 表格。
  5. BigQuery:發布至 BigQuery 時,您必須指定要發布的表格和相關動作。請見以下說明。
  6. 如果要儲存發布目的地,請按一下 [Save Settings] (儲存設定)

變數

如有任何資料集包含變數參數,您就可以套用覆寫至變數預設值。請按列出的預設值,並插入新值。變數的預設值可以是空白。

注意:變數覆寫僅適用於此項工作。除非再次指定,否則後續工作會使用預設變數值。不會針對覆寫值實體執行資料驗證。

變數詳細資訊請參閱參數化總覽

檔案設定:

您產生檔案型結果時,可以在右側面板設定檔案名稱、儲存格式、壓縮、檔案數量及更新行動。

圖:輸出檔案設定

請設定下列設定項目:

  1. 建立新檔案:輸入檔案名稱以建立新檔案,系統會自動新增檔案名稱的副檔名,您可以省略檔案名稱的副檔名。
  2. 輸出目錄:目前目錄的唯讀值。
    1. 如要變更,請前往合適的目錄。

  3. 資料儲存格式:選取您想要為這項工作產生的輸出格式。
    1. Avro:

      此為匯入檔案至 BigQuery 的偏好格式。
    2. CSV 和 JSON:這些格式可支援所有類型的匯入資料集和所有執行環境。

    3. 詳請請參閱支援的檔案格式一文。
  4. 發布動作:選取下列其中一項操作:

    註:如果多個工作正嘗試發布至相同的檔案名稱,則會在後續檔案名稱結尾加上數值後置字串 (_N) (例如 filename_1.csv)。

    1. 每次執行時建立新檔案:針對每次使用所選發布目的地執行的工作,系統會以相同的基本名稱和其附加的工作號碼建立新檔案 (例如 myOutput_2.csvmyOutput_3.csv 等,以此類推)。
    2. 每次執行時附加至這個檔案:針對每次使用所選發布目的地執行的工作,系統會附加相同的檔案,這代表直到檔案在清除或修整前會持續增長。

      附註:針對 append 動作,系統不支援壓縮已發布檔案。

    3. 每次執行時取代這個檔案:針對每次使用所選發布目的地執行的工作,系統會以新結果的內容覆寫現有檔案。
  5. 更多選項:

    1. 建立時納入標頭作為第一個資料列:針對 CSV 輸出,您可以選擇在輸出中納入資料欄標頭作為第一個資料列。其他格式中會自動包含這些標頭。

      注意:標頭不可套用至已壓縮的輸出。

    2. 納入引號:您可針對 CSV 輸出,選擇讓所有值前後都有雙引號,包括標頭在內。

    3. 分隔符號:您可針對 CSV 輸出輸入分隔符號,以便在輸出之中分隔欄位。預設值為全域分隔符號,您可於此欄位依據每項工作加以覆寫。

      提示:如果工作需要,您可透過下列格式全部使用 Unicode 字元:\uXXXX

    4. 單一檔案:輸出會寫入單一檔案。

    5. 多個檔案輸出會寫入多個檔案。
  6. 如果要儲存發布動作,請按一下 [儲存設定]

BigQuery 表格設定

當發布至 BigQuery 時,請完成下列步驟來設定要套用至發布動作的表格和設定。

步驟解說:

  1. 選取位置:前往 BigQuery 瀏覽器以選取要發布的資料庫和表格。
    1. 如要建立新表格,請按一下 [建立新的資料表]
  2. 選取資料表選項:
    1. 資料表名稱:
      1. 新資料表:輸入名稱,您可以使用現有資料表名稱,系統會對它執行結構定義的檢查。
      2. 現有資料表:您無法修改名稱。
    2. 輸出資料庫:如要變更您想要發布的資料庫,請按一下側欄的 BigQuery 圖示。選取不同的資料庫。
    3. 發布動作:選取下列其中一項操作。
      1. 每次執行時建立新資料表:每次執行都會產生時間戳記附加於其名稱之後的新資料表。
      2. 每次執行時附加於這個資料表:每次執行時會在資料表尾端新增任何新結果。
      3. 每次執行時截斷資料表:每次執行時截斷資料表中的所有資料,並以新結果取代。
      4. 每次執行時捨棄資料表:每次執行時捨棄 (刪除) 資料表且刪除所有資料。接著建立具有相同名稱的新資料表,並將新結果新增至表格中。
  3. 如果要儲存發布動作,請按一下 [Save Settings] (儲存設定)

Dataflow 執行設定

根據預設,Cloud Dataprep by TRIFACTA 會在 us-central1 地區的 n1-standard-1 機器上執行您的工作。您可以視需要變更執行工作的地理位置和機器。

提示:您可以在專案設定中變更下列項目的預設值。請參閱專案設定頁面

變更這些設定可能會影響執行工作的時間和成本。

設定說明
地區區域是指可供您執行資源的特定地理位置。
區域

區域是地區之下的一個分區,含有特定資源。

選取 Auto Zone 可讓平台為您選擇區域。

機器類型選擇要用來執行工作的機器類型。預設值為 n1-standard-1

如要進一步瞭解上述設定,請參閱 https://cloud.google.com/compute/docs/regions-zones/

執行工作

如要依設定執行工作,請按一下 [執行工作]。系統會將這項工作會加進執行佇列。

Cloud Dataflow 會限制以 JSON 格式傳入的工作大小。

提示:如果超過此限制,則工作可能會失敗並顯示 job graph too large 錯誤訊息。解決方法是將工作拆分成更小的工作,例如將方案拆分成多個方案。這是 Cloud Dataflow 的已知限制。

工作排入佇列後,您可以追蹤這項工作的完成進度。請參閱工作頁面

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁