資料欄統計參考資料

本頁面說明個別資料欄適用的統計資訊。

  • 統計資料可能會隨著資料欄的資料類型而改變。舉例來說,狀態的統計資料可能會和字串的統計資料不同。
  • 大部分的統計資料能在資料欄詳細資料面板中取得,您可以在轉換頁面的左側開啟此面板。請參閱資料欄詳細資料面板

您可以在下方查看每種資料類型均有的一般統計資料,以及每種特定資料類型的統計資料細項。

附註:在您的工作開始執行前,如資料欄統計資料這類的剖析資訊為目前已載入樣本的確切計數。執行工作後,工作結果頁面內的剖析結果可能會包含部分指標和計數的預估值,視資料集的規模而定。

一般資料欄計數

以下是一般適用於資料欄中任何值選項的計數。

計數名稱說明
有效值符合資料欄資料類型的有效值的計數
不重複值不重複值的計數。重複值不會計算在內。
離群值

符合離群值定義的值的計數,離群值需符合下列其中一項條件:

  • < (第 25 百分位數) - (2 * IQR)
  • > (第 75 百分位數) + (2* IQR)
  • IQR (四分位距) 指兩個中間四分位數的值範圍,等同於第 25 和第 75 百分位數之間的距離。因此,在上述計算方式中,IQR 因子能確保離群值位於整個範圍的兩個極端。
不相符值不符合資料欄資料類型的值的計數。例如,含有「MISSING」值的整數資料欄會產生不相符值。
遺漏值沒有填入任何內容的值的計數

一般資料欄統計資料

您可以透過資料欄瀏覽器取得大部分資料類型的統計資料。

  • 如為字串類型 (字串、電話號碼、社會安全號碼、布林值、電子郵件地址、信用卡號碼、性別、IP 位址、網址、HTTP 代碼、日期/時間),這些統計資料會測量字串長度。
    • 如為結構化字串類型 (電話號碼、社會安全號碼、布林值、性別、IP 位址、HTTP 代碼、日期/時間),這些數字的任何變動均代表資料發生問題。
  • 不適用於:狀態
統計資料名稱說明
最小值資料欄的最低值
下四分位數下半部份的值的中位數 (第 25 百分位數)
中位數

所選集合的中間值。例如,在一組 21 個值的集合中,中位數為按遞增順序排列的第 11 個值。

  • 如果在資料集中,值的數量為偶數,中位數為兩個中間值的平均值。
上四分位數上半部分的值的中位數 (第 75 百分位數)
最大值資料欄的最高值
平均值資料欄的平均值
標準差以所選值計算得出的標準差。

匯總函式

以下函式可以套用到從資料集中一或多個資料欄所擷取的一組欄位式資料。除非另外提及,否則這些函式均適用於數字資料。詳情請參閱匯總函式

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁