Filter 轉換

注意:轉換屬於基礎程式語言的一部分,使用者無法直接存取。本篇文章的內容僅供參考。

依據您指定的條件或套用的自訂公式,移除或保留相符資料列。

基本用法

您可以依據下列條件類型篩選資料集:

範例 - 缺少

filter missing: qty action: Drop

輸出:刪除在 qty 資料欄中缺少值的所有資料列。

範例 - 不相符

filter col: CoName mismatched: 'String' action: Drop

輸出:刪除在 CoName 資料欄中值不與字串資料類型相符的所有資料列。

範例 - 完全相符

filter col: basic exactly: find(basic, '545', true, 1) == 8 action: Keep

輸出:保留在 basic 資料欄中 545 顯示於第八個字元位置的所有資料列。

範例 - 其中之一

filter col: zipCode oneOf: '94104','94105' action: Keep

輸出:保留在 zipCode 資料欄中值為 9410494105 的所有資料列,並在資料集中刪除其他全部資料列。

範例 - 小於 (或等於)

filter col: row_number lessThanEqual: 5 action: Keep

輸出:保留資料集的 row_number 資料欄中,值小於或等於 5 的所有資料列,並刪除其他所有資料列。

範例 - 大於 (或等於)

filter col: row_number greaterThanEqual: 10 action: Drop

輸出:刪除資料集中 row_number 值大於或等於 10 的所有資料列。

範例 - 介於兩者

filter col: row_number greaterThan: 5 lessThanEqual: 15 action: Keep

輸出:保留其中 row_number 值大於 5 或是小於或等於 15 的所有資料列,並刪除其他所有資料列。

範例 - 包含

filter col: phoneNum contains: `\({digit}{3}\)` action: Keep

輸出:保留 phoneNum 值包含以括號括起三位數模式 (XXX) 的所有資料列,並刪除其他所有資料列。

範例 - 開頭

filter col: phoneNum startsWith: '(981)' action: Keep

輸出:保留其中 phoneNum 值以 (981) 開頭的所有資料列,並刪除其他所有資料列。

範例 - 結尾

filter col: zipCode endsWith: `\-{digit}{4}` action: Drop

輸出:刪除其中 zipCode 值以四位數附加資訊結尾的所有資料列。

範例 - 自訂公式

filter row: (row_number >= 25 && firstName == 'Steve') action: Keep

輸出:保留 row_number 值大於或等於 25 且 firstName 值為 Steve 的所有資料列,並刪除其他所有資料列。

參數

filter col:column_ref type: 'filter_str' [missing: column_ref] [exactly: expression_ref] [mismatched: 'data_type_str'] [exactly: expression] [oneOf: 'string_1','string_2'] [lessthan | lessThanEqual: numVal] [greaterthan | greaterThanEqual: numVal] [contains: string_or_pattern] [startsWith|endsWith: string_or_pattern] action: [Drop|Keep]

符記是否必要?資料類型說明
filter轉換轉換名稱
type字串代表要執行篩選類型的字串值。
row字串識別一或多個資料列執行篩選的運算式。如果運算式評估資料列為 true,該資料列會保留或刪除。
col字串要刪除的資料欄名稱或資料欄運算式
missing字串用來評估缺少值的資料欄名稱。
mismatched字串用於查看不相符項目的資料類型字串常值。
exactly字串

在特定資料欄的資料列值中評估為完全相符的字串常值、Cloud Dataprep 模式或規則運算式。

oneOf字串任一相符字串常值的清單。
lessThan 或 lessThanEqual整數、小數或運算式

小於比對結果的整數或小數常值,或是賦值為小於比對結果的運算式。也可與特定運算式完全相符。

參數也用於「介於兩者」條件類型。

greaterThan 或 greaterThanEqual整數、小數或運算式

大於比對結果的整數或小數常值,或是賦值為大於比對結果的運算式。也可與特定運算式完全相符。

參數也用於「介於兩者」條件類型。

contains字串

字串常值、Cloud Dataprep 模式或規則運算式與特定資料欄內的值部分位置相符。

startsWith字串

字串常值、Cloud Dataprep 模式或規則運算式與特定資料欄內的值開頭相符。

endsWith字串

字串常值、Cloud Dataprep 模式或規則運算式與特定資料欄內的值結尾相符。

action字串DropKeep 所列的資料欄

若要進一步瞭解語法標準,請參閱語言文件語法附註

類型

這是用來執行篩選類型的字串常值。如要進一步瞭解上述字串常值的值,請參閱有效資料類型字串

使用須知:

是否必要?資料類型
對應到其中一個支援資料類型值的字串常值

row

這個運算式是用來識別一或多個要執行轉換的資料列。運算式賦值必須為 truefalse

範例:

運算式說明

Score >= 50
如果 Score 資料欄中的值大於 50,則傳回 true

LEN(LastName) > 8
如果 LastName 資料欄中的值長度超過 8,則傳回 true

ISMISSING([Title])
如果 Title 資料欄中的資料列值遺漏,則傳回 true

ISMISMATCHED(Score,['Integer'])
如果 Score 資料欄中的資料列值不符合整數資料類型,則傳回 true

範例:

delete row: (lastContactDate < 01/01/2010 || status == 'Inactive')

輸出:刪除資料集內,lastContactDate 值落在 2010 年 1 月 1 日之前或狀態為 Inactive 的所有資料列。

使用須知:

是否必要?資料類型
賦值為 truefalse 的運算式

col

識別要套用轉換的一個或多個資料欄。您可以指定一個資料欄或多個資料欄。

使用須知:

是否必要?資料類型
字串 (資料欄名稱)

missing

針對「缺少」條件類型,此值指定要查看缺少值的資料欄。

使用須知:

是否必要?資料類型
僅「缺少」條件類型需要字串 (資料欄名稱)

mismatched

針對「不相符」條件類型,此值會指定適用於資料類型 ID 值的字串來查看是否有無不相符項目。詳情請參閱有效資料類型字串一文。

也需要 col 參數。

使用須知:

是否必要?資料類型
僅「不相符」條件類型需要字串 (資料類型 ID)

exactly

針對「完全相符」條件類型,此值是在特定資料欄中的資料列值完全相符的字串常值、Cloud Dataprep 模式,或規則運算式。

也需要 col 參數。

使用須知:

是否必要?資料類型
僅「完全相符」條件類型需要字串 (運算式)

oneOf

針對「其中之一」條件類型,此值為字串常值、Cloud Dataprep 模式,或規則運算式的清單。如果適用於特定資料欄的資料列值符合其中一項運算式,就會刪除或保留資料列。

也需要 col 參數。

使用須知:

是否必要?資料類型
僅「其中之一」條件類型需要

字串常值、Cloud Dataprep 模式,或規則運算式的清單。

lessThan 或 lessThanEqual

針對「小於」條件類型,此值是整數或小數文字,或賦值為整數或小數文字的運算式。如果指定資料欄中的值為小於 (或等於) 此值,則資料列就會刪除或保留。

也需要 col 參數。

使用須知:

是否必要?資料類型
僅「小於 (或等於)」條件類型需要整數或小數文字,或是賦值為這些資料類型其一的運算式。

greaterThan 或 greaterThanEqual

針對「小於」條件類型,此值是整數或小數文字,或是賦值為整數或小數文字的運算式。如果指定資料欄中的值為大於 (或等於) 此值,則資料列就會刪除或保留。

也需要 col 參數。

使用須知:

是否必要?資料類型
僅「大於 (或等於)」條件類型需要整數或小數類型,或是賦值為這些資料類型其一的運算式。

contains

針對「包含」條件類型,此值會識別字串常值、Cloud Dataprep 模式,或規則運算式,以用於在特定資料欄中評估部分或完全相符的資料列值。

也需要 col 參數。

使用須知:

是否必要?資料類型
僅「包含」條件類型需要

字串常值、Cloud Dataprep 模式或規則運算式。

startsWith

針對「開頭」條件類型,此值使用必須在指定資料欄中開頭的值來比對識別字串常值、Cloud Dataprep 模式或規則運算式。

也需要 col 參數。

使用須知:

是否必要?資料類型
僅「開頭」條件類型需要

字串常值、Cloud Dataprep 模式或規則運算式。

endsWith

針對「結尾」條件類型,此值使用必須在指定資料欄中結尾的值來比對識別字串常值、Cloud Dataprep 模式或規則運算式。

也需要 col 參數。

使用須知:

是否必要?資料類型
僅「結尾」條件類型需要

字串常值、Cloud Dataprep 模式或規則運算式。

action

識別轉換是否要執行的動作:

  • Drop - 從資料集刪除所列資料欄。
  • Keep - 在資料集保留所列資料欄,且刪除其他所有的資料欄。

使用須知:

是否必要?資料類型
字串 (DropKeep)

範例

請參閱上述說明。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁