歡迎參加資料雲端高峰會,瞭解我們在資料庫、數據分析及 AI 方面的最新創新技術。直播與隨選影片 (自 5 月 26 日起)。

Dataprep by Trifacta

這是一套智慧型雲端資料服務,能讓您透過圖形介面來瀏覽、清理及準備相關資料,以便進行分析與機器學習作業。

查看這項產品的說明文件

Dataprep 圖示位於打開的筆記型電腦前方,網頁堆疊位於右側,左側是含有 Trifacta 標誌的試算表,後方的雲朵中則有長條圖

智慧型資料準備服務

Dataprep by Trifacta 是一套智慧型資料服務,能讓您透過圖形介面來瀏覽、清理及準備相關資料 (包括結構化資料與非結構化資料),以便進行分析、產生報表並執行機器學習作業。Dataprep 採用無伺服器技術,而且可以處理任何規模的資料,因此您無須部署或管理任何基礎架構。只要操作使用者介面,Cloud Dataprep 就會建議和預測接下來最合適的資料轉換作業,為您省去編寫程式碼的麻煩。

最新資訊

顯示了許多資料的電腦螢幕

無伺服器的簡便設計

Dataprep 是由 Trifacta 負責營運的整合式合作夥伴服務,其設計原型為 Trifacta 領先業界的資料準備解決方案。Google 與 Trifacta 密切合作,攜手提供流暢的使用者體驗,使用者不必預先安裝軟體、另行支付授權費用,也不必持續負擔營運成本。Dataprep 是一項可以視情況進行擴充的全代管服務,能協助您滿足日漸增加的資料準備需求,讓您持續專注於資料分析工作。

含有碼錶圖示的形象圖表

快速探索與異常偵測功能

資料分布情形一目了然,幫助您迅速看懂與探索資料。Dataprep 會自動偵測結構定義、資料類型、可能的彙整及異常 (例如缺少的值、離群值和重複值),讓您略過耗時的數據剖析工作,直接進行探索和分析。

打開的厚紙板紙箱中出現一個含有文字的頁面,右側空白處有藍色勾號。圖片左側是 Dataprep 圖示。

簡單而強大的資料準備功能

每當您在使用者介面中執行操作項目時,Dataprep 都會自動建議及預測最合適的下一項資料轉換作業。轉換順序定義完畢之後,Dataprep 會在背景中使用 Dataflow 或 BigQuery。您只要輕鬆按幾下滑鼠,就能處理各種規模的結構化或非結構化資料集,完全不需要編寫程式碼。

Dataprep 功能與特點

標準版、進階版和企業版

可預測的轉換

Dataprep 會透過專屬的推論演算法解讀使用者資料選取項目的資料轉換意圖,然後自動產生一組經過排序的建議和模式,方便您調整所選項目設定。

豐富轉換

運用數百項函式將資料轉換為所需資產。您只需要按一下滑鼠,即可套用匯總、透視、解除透視、彙整、聯集、擷取、計算、比較、條件、合併和規則運算式等。

最佳化總處理量

Dataprep 會自動選取最佳基礎 Google Cloud 處理引擎,以盡快轉換資料。Dataprep 會根據資料本地性和資料量利用 BigQuery (就地 ELT 轉換) 準備資料及 Dataflow。若只轉換少量資料,則會選取 Dataprep 記憶體內引擎。

動態剖析

透過互動式圖表呈現資料分布情況,方便您查看及探索資料,進而輕鬆發掘、清理及轉換資料。Dataprep 創新的剖析技術會將關鍵的統計資訊視覺化,並以動態、容易理解的方式呈現,助您解譯大量資料。

資料品質規則

資料品質規則會建議資料品質指標,以監控和修正資料的準確性、完整性、一致性、有效性和獨特性,確保您可以完整掌握資料的清潔度。

協同合作

在團隊合作的環境中,如有多位使用者同時處理同一項資產,或是為優質成品建立副本來當做可供他人參考的範本,您就能更輕鬆地執行作業。Dataprep 可讓使用者即時協同處理相同的流程物件,或是建立可供他人用於其他獨立工作的副本。

全方位連線

除了 BigQuery、Cloud Storage、Microsoft Excel 和 Google 試算表標準連線之外,您可以使用 Salesforce、Oracle、Microsoft SQL Server、MySQL、PostgreSQL 等上百個資料來源提升您自助服務數據分析的連線能力。

自動化調度管理資料管道

按照序列和條件順序將資料準備工作相互連結,藉此安排工作時間表並進行自動化處理。提醒使用者成功或失敗,並觸發外部工作 (例如 Cloud Functions)。透過全方位的 API 將 Dataprep 整合至企業的端對端解決方案。

企業規模的作業化

採取持續部署做法,使用跨版本的方案匯入/匯出功能、流程參數、Google Dataflow 效能微調自訂設定和進階 API,自動化處理軟體開發生命週期和監控作業。

常見的資料類型

無論資料集是否經過結構化處理,內容儲存於 CSV、JSON、關聯式資料表或是軟體式服務 (SaaS) 應用程式,資料規模為何 (包含 MB 和 PB 規模),您都能以同樣簡便的方式加以轉換。

模式比對

您可以運用資料欄模式比對功能來識別所需的資料模式,並在介面中顯示這類模式,以便建立方案。另外,您可以在方案步驟中套用規則運算式或 Dataprep 模式,在資料集裡搜尋所需模式及轉換相符的資料。

標準化

依據拼字或無關語言的發音的相似性將資料值分組,藉此建立含有一致資料值的標準化叢集。

取樣

為提高效能,Dataprep 會自動產生一或多個可在用戶端應用程式中顯示及操控的資料樣本。不過,您可以輕鬆變更樣本大小和範圍,以及建立樣本時使用的方法。

進階安全性

使用 Google IAM 角色以及 BigQuery、Cloud Storage 和 Google 試算表存取權來確定存取權限,藉此提供個別資料存取權控管機制,以擴大目前的安全性標準。

Dataprep ELT 管道架構

左側的「擷取」資料欄列出了原始資料的來源,包括 BigQuery、Cloud Storage、Google 試算表、Microsoft Excel、資料庫、應用程式和檔案上傳作業。箭頭向右連接至「準備與儲存」資料欄,其下有 Cloud Dataprep 和 Dataflow。在這個階段,BigQuery 和 Cloud Storage 中的資料會經過修正。資料欄的下方是「管理與自動化」,當中包含 Data Catalog、Cloud Functions 和 Cloud Composer。箭頭繼續延伸至右側的「資料分析與機器學習」資料欄,下方則列出了 BigQuery/BigQueryML、Looker、Google 數據分析、合作夥伴商業智慧 (BI) 服務 (此處為 Qlik 標誌) 和 Cloud AI 平台。

Dataprep 讓我們能迅速探索新的資料集,且使用上的彈性能滿足我們的各種資料轉換需求。Merkle 的資料準備工作現在只要幾分鐘即可完成,無需耗費數小時或數天的時間,資料準備速度加快了 90%。

Merkle IT 架構師 Henry Culver

我們的客戶

資源

定價

Dataprep 是互動式網頁應用程式,使用者可與自己的資料樣本互動,以定義資料準備規則。如要在完整的資料集上執行流程,可使用 Dataflow 將該流程當做 Dataprep 工作來執行。費用會按照兩項變數計算,也就是設計和執行。設計的費用是以個別專案來計算,使用者人數不限。執行的費用包含在 Dataprep 中執行工作的 Dataflow 用量。如要瞭解詳情及查看完整詳細資料,請參閱 Google Cloud Marketplace 的定價頁面。 

後續行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構內容。

需要入門協助嗎?
與值得信賴的夥伴合作