運算計數

Cloud Dataprep by TRIFACTA® 支援計算資料中的資料列數、資料欄數以及臨時值數,以便您可以評量資料的品質、一致性和統計有效性。

計數的重要注意事項

您在「Transformer」(轉換器) 頁面看到的任何經過計算的計數都是從顯示的範例計算所得。

只有資料網格顯示完整資料集時,這些經過計算的計數才會反映整個資料集。

圖:資料網格範例是完整資料集。

但是,執行工作時,系統會將所有計算的計數套用至整個資料集。

視覺化剖析

執行工作時,您可以啟用工作結果的剖析,進而顯示資料集的視覺化設定檔和一些統計資料。此設定檔可用於檢查應用程式。詳情請參閱視覺化資料剖析總覽

資料列與資料欄計數

在資料網格底部的狀態列中,您可以查看所顯示範例中資料列與資料欄的目前計數。

提示:狀態列中的資料列與資料欄計數對比較步驟之間這些指標的變更很有用。例如,您可以按一下方案中的步驟 2,然後查看這些指標。當您按一下步驟 3 時,這些指標可能會變更。

資料列計數:視取樣方法而定,資料列計數可能會變更。詳情請參閱取樣總覽

資料欄計數:根據預設,系統會顯示面板中的所有資料欄。只有在您刪除或隱藏資料欄時,資料欄計數才會變更。如要進一步瞭解如何切換資料欄的顯示,請參閱可見資料欄面板一文。

詳情請參閱資料網格面板一文。

計算的資料列數

您可以使用下列函式識別並計算資料集中的資料列計數。

函式名稱說明
COUNT 函式

產生資料集中的資料列數量。產生的值是整數類型。

提示 通常,此函式屬於匯總作業的一部分,匯總作業會根據其他資料欄中的共用值分組資料列。此函式也可以在不分組的情況下套用,這稱為一般匯總。如要進一步瞭解如何套用匯總計數,請參閱以下說明。

ROWNUMBER 函式

產生新資料欄,其中所含的資料列編號會依 order 參數指定排序,且可選擇性地依 group 參數指定分組。

SOURCEROWNUMBER 函式

在套用任何步驟之前,傳回原始的來源資料集中出現的現有資料列編號。

附註:如果原始來源資料列資訊無法使用,此函式可能無法傳回結果。例如,如果您在多個資料集之間執行彙整,則無法計算來源資料列號碼資訊。同樣地,如果您先計算此函式,然後執行彙整,結果可能沒有意義。

提示:您可以稍後將此函式與 MINMAX 函式配對,來計算最高與最低資料列號碼資訊。

依模式計數

這些轉換可讓您計算儲存格值中的常值或模式計數。然後,您可以對這個新的資料欄值執行計算,以跨資料集計算指標。

計數模式或文字

下列範例會計算 My Companytweet 資料欄中的參照數:

轉換名稱 Count matches
參數:選項 Text or pattern
參數:要計數的文字或模式 'My Company'
參數:新資料欄名稱 tweetCompanyReferences

但是,假設公司有多種參照方式,可能為:

  • My Company
  • My Co
  • My Company, Inc.

您可以將上述轉換修改為使用 Cloud Dataprep 模式擷取這些變化形式:

轉換名稱 Count matches
參數:選項 Text or pattern
參數:要計數的文字或模式 `(My Company|My Co|My Company, Inc.)`
參數:新資料欄名稱 tweetCompanyReferences

必要時,您可以使用下列項目新增 tweetCompanyReferences 中的所有計數來決定總數。

附註:請記住,這個總和只反映資料網格中範例的值總和。當您執行包含此計算的工作時,系統會將其套用至資料集中的所有資料列。

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 SUM(tweetCompanyReferences)
參數:新資料欄名稱 sum_tweetCompanyReferences

模式之間的計數

您也可以收集儲存格值中兩個模式之間的值計數。您可以透過此方式分析儲存格值中限制更多的子字串。

下列轉換會計算 msgText 資料欄每個資料列中的網址,並假設網址以 http:// 或 https:// 開頭,以 .com 或 .net 結束:

轉換名稱 Count matches
參數:選項 Between two delimiters
參數:開始模式 `(http\:\/\/|https\:\/\/)`
參數:包含為配對內容的一部分 Selected
參數:結束模式 `(\.com|\.net)`
參數:包含為配對內容的一部分 Selected
參數:忽略大小寫 Selected
參數:新資料欄名稱 countURLs

計數函式

匯總計數

您可以根據定義為計算一部分的群組執行計算。這些群組稱為匯總,對於傳送資料的深入分析而言,是一個很強大的工具。

在下列範例中,會對按地區 (regionId) 和產品 (prodId) 分組的交易資料執行多項匯總計算,包括 COUNT 函式:

轉換名稱 Group by
參數:分組依據 1 regionId
參數:分組依據 2 prodId
參數:值 1 SUM(sales)
參數:值 2 COUNT()
參數:類型 Group by as new column(s)

附註:上述計算會將兩個新資料欄插入資料集。您也可以選擇使用這些匯總計數對資料集執行完整替換。詳情請參閱透視資料一文。

條件式計數函式

您可以根據條件使用計算發生次數的一組函式。在函式的下列清單中:

  • 某些條件會隱含在函式本身。例如,COUNTA 會計算非空值數。
  • 某些條件會指定為函式的一部分。例如,如果滿足指定條件,COUNTIF 會將計數製成表格。
函式名稱說明
COUNTIF 函式

產生各個群組中符合特定條件的資料列計數。產生的值是整數類型。

COUNTA 函式

在指定的資料欄中產生非空值資料列的計數,可選擇按群組計數。產生的值是整數類型。

COUNTAIF 函式

為每個符合特定條件的群組中的資料列計算非空值的總數。

COUNTDISTINCT 函式

在指定的資料欄中產生不同值的計數,可選擇按群組計數。產生的值是整數類型。

COUNTDISTINCTIF 函式

下列轉換會計算 msgText 的長度大於 140 個字元的資料列數,並按 userId 進行分組:

轉換名稱 Group by
參數:分組依據 1 userId
參數:值 1 COUNTIF(LEN(msgText)>140)
參數:類型 Group by as new column(s)
本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁