詞彙表

適用於 Cloud Dataprep by TRIFACTA® 的術語。

附註:這份清單並未包含完整內容。

物件模型術語

這些術語適用於您在 Cloud Dataprep by TRIFACTA 中匯入、建立及產生的物件。

連結

產品和資料儲存庫之間的整合,系統透過此方式,從儲存庫讀取資料或將資料寫入儲存庫。視類型而定,連結為唯讀或讀寫。系統預設會提供一些連結。

含參數的資料集

建立含參數化參照的匯入資料集,通常用來收集儲存在相似位置或檔案名稱中含有相同結構的多個資產。比方說,假設您每週將訂單儲存在同一目錄下的個別檔案中,那麼您可以建立含參數的資料集,以擷取單一物件中的所有這類檔案,即使之後加入了更多檔案,也能擷取這類內容。

您會使用下列其中一或多個類型的參數,來指定一或多個資產的路徑:Datetime、Cloud Dataprep 模式、規則運算式模式、萬用字元或變數。

流程

這是一種容器,用來保存一組相關的已匯入資料集、方案及輸出物件。您可在流程檢視頁面中管理流程。

已匯入資料集

這是物件參照,包含將疊加到 Cloud Dataprep by TRIFACTA 中的資料。當您指定要透過連結讀取的檔案或資料表時,即會建立匯入的資料集。

工作

工作是一連串的處理步驟,會將方案的每個步驟連續套用至整個資料集,以產生所需的一組結果。

輸出

與方案相關聯,一項輸出是使用者定義的一組檔案或資料表、格式,以及完成方案上的工作執行後寫入結果的位置。

輸出目的地

一項輸出可能包含一或多個目的地,每個目的地都會定義檔案類型、檔名,以及寫入輸出結果的位置。

參數 (資料集)

這是擷取以下值模式的物件:定義將一組檔案或資料表路徑的某個部分包含在單一匯入的資料集中。

方案

這是一連串的步驟,會將一或多個資料集轉換為所需的輸出。方案是在轉換器頁面中使用一或多個資料集的範例建立的。執行某個工作時,方案的步驟會按照列出的順序套用至一或多個已匯入資料集,以產生輸出。

參照

指向方案輸出的指標。參照可用於其他流程,讓那些流程從參照的方案取得最新版本的輸出。

參照資料集

已匯入至另一個流程的參照。

結果

產生的一組檔案或資料表,其包含處理所選取方案、其資料集和所有上游依附元件的結果。

結果剖析資料

您可以選擇是否建立產生結果的剖析資料。此剖析資料可透過 Cloud Dataprep 應用程式提供,並且可協助分析或疑難排解資料集的問題。請參閱視覺化剖析總覽一文。

樣本

當您檢閱資料網格中的資料並與其互動時,將會看到套用至資料集樣本的方案的目前狀態。如果整個資料集小於定義的限制,您可以與整個資料集互動。

您可以使用支援的幾種取樣技術之一,建立新樣本。請參閱取樣總覽一文。

目標

這是您嘗試要疊加資料集的一組資料欄、資料欄的順序和資料欄的格式。目標代表您嘗試要疊加到其中的結構定義。您可將目標指派至方案,結構定義也可以疊加在資料網格中的資料欄上,這讓您只要進行簡單的選取動作,就可以轉換資料集,使其符合目標的資料欄名稱、順序和格式。請參閱 RapidTarget 總覽一文。

變數 (資料集)

用於取代資料檔案路徑中會隨每次重新整理而變更的部分。您可以在工作執行階段視需要覆寫變數。

應用程式術語

這些術語適用於 Cloud Dataprep 應用程式,您將使用這個網頁型應用程式與資料集、流程和方案互動。

新增時間表對話方塊

建立或修改流程的排定執行時間。

Automator

這個功能可依據使用者定義的時間表,自動執行流程。請參閱 Automator 總覽一文。

資料欄瀏覽器面板

瀏覽資料集的資料欄,以及對一或多個選取的資料欄選取及執行操作。請參閱資料欄瀏覽器面板一文。

資料欄詳細資料面板

說明所選資料欄中資料的詳細資料和剖析。請參閱資料欄詳細資料面板一文。

資料欄選單

從選單的選項清單,對所選取的資料欄執行轉換指令操作,包括變更資料欄資料類型。請參閱資料欄選單一文。

資料欄直方圖

在資料欄的最上方,查看資料欄值的數量。在資料欄中,透過直方圖選取一或多個值。請參閱資料欄直方圖一文。

資料網格

在轉換器頁面中,資料網格會在方案目前所選取步驟中顯示資料集樣本。在資料集中進行選取時,會提示要新增至方案的轉換指令建議。請參閱資料網格面板一文。

資料品質長條

根據資料欄資料類型,查看您資料欄中有效、遺失和不相符值的計數 (這些計數會用不同顏色標示)。選取色條,系統就會提示相關資料列的轉換指令建議。請參閱資料品質長條一文。

資料類型選單

從資料欄標題左側的圖示,變更資料欄的資料類型。請參閱資料欄選單一文。

資料集詳細資料頁面

檢查有關資料集的詳細資料,包括資料來源和其他資訊。請參閱資料集詳細頁面一文。

流程頁面

建立、管理和匯出流程。請參閱流程頁面一文。

流程檢視頁面

建立流程物件,包括方案、輸出和參照。請參閱流程檢視頁面一文。

首頁

登入後的到達網頁。請參閱首頁一文。

匯入資料頁面

從有效連結匯入資料做為匯入的資料集。請參閱匯入資料頁面一文。

資料庫頁面

管理匯入的資料集和參照物件。請參閱資料庫頁面一文。

工作頁面

查看已啟動工作的清單。查看狀態、探索工作詳細資料和匯出結果。請參閱工作頁面一文。

工作詳細資料頁面

查看工作的詳細資料,包括可選擇是否建立產生資料的剖析。請參閱工作詳細資料頁面一文。

RapidTarget

這個功能可將資料集的資料欄和資料類型與預先定義的目標結構定義進行比對。

方案面板

在目前的方案中新增、編輯和移除步驟。套用變更,會在資料網格樣本中立即看到更新。

執行工作頁面

在啟動之前,設定工作、視覺化剖析及工作輸出。請參閱執行工作頁面一文。

樣本面板

查看、建立及刪除目前方案的樣本。

搜尋面板

搜尋轉換指令以建立為方案中的下一個步驟。請參閱搜尋面板一文。

設定頁面

查看及修改設定。請參閱設定頁面一文。

共用流程對話方塊

共用流程或傳送其副本給其他使用者。

建議資訊卡面板

視您在資料網格中所做的選擇而定,您可以查看一組建議新增至方案的轉換指令。請參閱建議資訊卡面板一文。

轉換器工具列

在資料網格最上方的工具列中,選取常用的轉換指令。請參閱轉換器工具列一文。

轉換製作工具

查看和自訂轉換指令步驟。請參閱轉換製作工具一文。

轉換器頁面

查看取樣的資料、探索建議和預覽,以及建立轉換指令步驟。請參閱轉換器頁面一文。

使用者個人資料頁面

查看和修改適用於使用者帳戶的設定。請參閱使用者個人資料頁面一文。

可見資料欄面板

查看和切換資料集中的資料欄可見度。請參閱可見的資料欄面板一文。

方案開發術語

以下術語與在轉換器頁面中建立 Wrangle 的方案相關。

引數

函數的輸入。請參閱 Wrangle 語言一文。

特徵分塊

有幾個功能可用來將資料欄值組成特徵分塊,這樣可以協助準備資料供下游使用。請參閱準備用於機器處理的資料一文。

資料類型

資料類型是針對資料欄中預期值的一組限制。當您指定資料欄的資料類型時,即會提供工具給平台識別資料欄中不符合所選類型的值,藉此協助疊加不相符值。請參閱支援的資料類型一文。

您可從資料欄選單中選取資料類型。請參閱資料欄選單一文。

依附元件

方案的輸入項目,並非是方案的主要資料來源。例如,如果您的方案包括彙整步驟,則彙整至方案的資料集就是上游依附元件。在 Cloud Dataprep 應用程式之外的方案步驟和變更,可能會產生相依性錯誤,在此情況下,將無法再找到上游物件,也無法解析物件的參照。這些問題必須先修正,才能成功執行工作。詳情請參閱修正相依性問題一文。

檔案編碼

檔案的編碼定義檔案使用的字元集。全世界使用的編碼系統有很多種。如要表示使用 26 個字元字母的英文語言,使用 UTF-8 就可以。但是,如要表示可能含有數千個字元的亞洲字元集,就需要不同且範圍更廣的字元集。請參閱支援的檔案編碼類型一文。

匯入檔案時,Cloud Dataprep by TRIFACTA 會假設檔案使用預設的編碼類型。如有需要,您可以變更用於匯入檔案的編碼類型。請參閱變更檔案編碼一文。

函式

Wrangle 中的函式是一種動作,可以做為轉換指令步驟的一部分,套用到一組值上。函式可接受 0 個以上的參數做為輸入,藉此產生特定資料類型的單一結果。如需支援函式的清單,請參閱語言索引一文。

初始結構

匯入檔案型的資料集時,Cloud Dataprep by TRIFACTA 會嘗試偵測資料的格式和結構,然後套用一組初始剖析步驟,以轉換資料進而以表格形式顯示在資料網格中。這些步驟可能隨檔案格式而異。請參閱初始剖析步驟一文。

這些步驟不會出現在方案中。如有需要,您可以停用匯入時偵測結構的功能。如果啟用,這些步驟會新增為方案的前幾個步驟;如有需要,您可以編輯或移除這些步驟。請參閱移除初始結構一文。

彙整

這個資料庫概念可以應用於資料集。在彙整中,系統會根據一組索引鍵資料欄,將兩個資料集併成一個。在這些資料欄中,跨資料集相符的值會用來判斷彙整資料集中要包含的每個資料集中的值。請參閱彙整類型一文。

彙整會建立為方案中的步驟。請參閱彙整面板一文。

查詢

根據各個資料集中資料欄的共同值,從另一個資料集擷取一列值。查詢很適合依據資料集中一個資料欄的值來提供參考資訊。請參閱查詢精靈一文。

不相符

資料欄中的值不符合資料欄'料類型預期值的範圍或格式。

遺漏

資料集中的空白儲存格值。

多資料集作業

多資料集 (MDS) 作業是指方案中使用兩個以上資料集的任一步驟。彙整和聯集是多資料集作業的例子。

巢狀運算式

運算式在另一個運算式內部。範例:

POWER(ABS(colA),colB)

Cloud Dataprep by TRIFACTA 支援在方案步驟中使用巢狀運算式。請參閱 Wrangle 語言一文。

空值

在資料集中不存在的值。請參閱管理空值一文。

運算子

這是代表算術函式或比較的單一字元。舉例來說,加號 (+) 代表相加的函式。

運算子類別說明
邏輯運算子AND、OR 和 NOT 運算子
數字運算子加、減、乘和除
比較運算子使用大於、等於、不等於和小於的運算子,對兩個值進行比較
第三運算子使用第三運算子可在轉換中建立 if/then/else 的邏輯。

離群值

在統計學中,離群值是指異常高於或低於平均值的值。Cloud Dataprep by TRIFACTA 中的離群值指的是與平均值相差超過 4 個標準差。

您可以查看資料欄值的離群值。請參閱資料欄統計參考資料一文。

參數 (語言)

Wrangle 轉換的輸入。請參閱 Wrangle 語言一文。

模式

在 Cloud Dataprep by TRIFACTA 中,模式指的是說明值中子字串的物件。模式可使用規則運算式、通用標準或 Cloud Dataprep 模式 (專屬簡化形式的規則運算式) 來描述。請參閱文字比對一文。

模式廣泛用於產品,用於從資料識別和擷取值、資料類型驗證和支援以模式為基礎的建議。

  • 請參閱「Cloud Dataprep 模式」一詞。
  • 請參閱「規則運算式模式」一詞。

規則運算式模式

規則運算式是用來描述值模式以進行比對的強大但複雜的方法。請參閱文字比對一文。

來源資料列號碼

顯示在原始資料集中的記錄資料列號碼。您可以透過函式取得來源資料列號碼資訊。如已在資料集上執行多資料集作業 (如聯集和彙整),這個函式可能傳回空值。請參閱 SOURCEROWNUMBER 函式一文。

來源中繼資料參照

來源中繼資料參照會透過程式參照資料集來源檔案的某個層面。使用這些程式輔助參照,您可以將原始資料來源的來源資訊寫入資料集供日後參考用。詳情請參閱來源中繼資料參照一文。

字串定序

字串定序指的是根據一組規則對字串進行比較的方法。Cloud Dataprep by TRIFACTA 提供的下列函式可用來執行以字串定序為基礎的比較。

轉換指令

轉換指令是方案步驟中的動作單位。轉換指令會將一或多個動作套用於一組資料列或資料欄。您可以透過轉換製作工具,在轉換器頁面中指定轉換指令。請參閱轉換製作工具一文。

如需可用轉換指令的清單,請參閱轉換指令參考資料一文。

轉換

Wrangle 轉換是套用至資料集的資料列或資料欄的一種動作。轉換可以接受零個以上參數做為輸入。參數可包含資料欄、常值或函式的參照。

附註:您無法透過 Cloud Dataprep 應用程式使用轉換,而是必須建立轉換指令,也就是比較複雜的步驟,從基礎程式語言參照轉換。

如需支援轉換的清單,請參閱語言索引一文。

Cloud Dataprep 模式

一種簡化形式的規則運算式,Cloud Dataprep 模式是資料中模式的自訂選擇器,為規則運算式提供了更簡單、更易讀的替代方法。請參閱文字比對一文。

聯集

聯集會合併兩個以上的資料集,使第二個及之後資料集的資料列附加至第一個資料集的末尾。在聯集作業中,資料欄必須一致,否則結果會是參差的資料集。

聯集會建立為方案中的步驟。請參閱聯集頁面一文。

疊加

這是用於資料準備程序的非正式用語。資料疊加由 Trifacta 共同創辦人所發明。

Cloud Dataprep by TRIFACTA 術語

這些術語是專門針對 Cloud Dataprep by TRIFACTA。

BigQuery

表格形式之資料集的儲存空間,位於 Google Cloud Storage 之上。請參閱使用 BigQuery 一文。

Cloud Dataflow

Google Cloud Platform 的元件,用於管理批次資料處理。工作會從 Cloud Dataprep by TRIFACTA 提交至 Cloud Dataflow 進行處理。

Google Cloud Storage

Google Cloud Platform 的檔案儲存空間。請參閱使用 Google Cloud Storage 一文。


其他字詞

Epoch/Unix 時間

Unix 時間 (亦即 POSIX 時間或紀元時間) 是一種用於描述時間瞬間的系統,它定義為從 1970 年 1 月 1 日星期四 00:00:00 世界標準時間 (UTC) 之後經過的秒數,閏秒則不計入。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁