参加数据云峰会,了解我们的最新数据库、分析和 AI 创新解决方案。直播和点播(自 5 月 26 日起)。

Dataprep by Trifacta

智能的云端数据服务,让您可以直观地探索、清理和准备数据,以备分析和机器学习之用。

查看此产品的文档

Dataprep 图标位于打开的笔记本电脑前方,笔记本电脑右侧有一叠网页,左侧有一个带 Trifacta 徽标的电子表格,后面是含条形图的云

智能数据准备

Dataprep by Trifacta 是一项智能的数据服务,让您可以直观地探索、清理和准备结构化数据及非结构化数据,以备分析、报告和机器学习之用。Dataprep 是一款无服务器工具,您可以处理任意规模的数据,而无需部署或管理任何基础架构。Dataprep 会根据您在界面中的每项输入,建议和预测接下来最合适的数据转换操作,您无需编写代码。

最新资讯

显示数据的计算机显示器

无服务器,简单易用

Dataprep 是一项由 Trifacta 负责运营的集成式合作伙伴服务,以该公司业界领先的数据准备解决方案为基础打造而成。 Google 与 Trifacta 密切合作,不要求用户预先安装任何软件,没有单独的许可费用或持续运营开销,可为用户提供流畅的使用体验。Dataprep 是一项全代管式服务,可按需扩缩,以满足您日益增加的数据准备需求,让您可以专注于分析。

带计时器图标的非写实图表

快速探索和异常值检测

直观的数据分布图可帮助您即时了解和探索数据。Dataprep 会自动检测架构、数据类型、潜在联接及异常(如值缺失、离群值和重复数据),让您可以跳过耗时的数据质量评估工作,直接进行数据探索和分析。

显示文本和右侧蓝色勾号的页面从打开的纸箱中升起。Dataprep 图标位于左侧。

易用而强大的数据准备

您在界面中每执行一项操作,Dataprep 都会自动建议和预测接下来最合适的数据转换操作。在定义好转换序列后,Dataprep 会在后台使用 Dataflow 或 BigQuery 来转换数据,让您轻松点击几下就能处理任何规模的结构化或非结构化数据集,省去了编写代码的麻烦。

Dataprep 特性

入门版、专业版和企业版

预测性转换

Dataprep 采用专有的推理算法来解读用户在数据选择过程中体现出的数据转换意图。根据数据选择情况,会自动生成一组经过排序的建议和模式。

丰富的转换函数

使用数百种转换函数将数据转换为所需的资源。只需点击鼠标,即可应用聚合、透视、逆透视、联接、联合、提取、计算、比较、条件、合并、正则表达式等。

优化处理吞吐量

Dataprep 会自动选择最佳底层 Google Cloud 处理引擎,尽可能加快数据转换速度。根据数据位置和数据量,Dataprep 使用 BigQuery(就地 ELT 转换)来准备数据、Dataflow 或 Dataprep 的内存引擎(针对少量数据)。

有效剖析

通过交互式的直观数据分布图查看并探索数据,推进数据发现、清理和转换工作。直观的展示形式有助于解读大量数据。Dataprep 采用创新分析方法,能够以动态、清晰明了的格式实现关键统计信息的可视化。

数据质量规则

数据质量规则会建议数据质量指标来监控和修正数据的准确性、完整性、一致性、有效性、独特性,从而确保您全面了解数据的清晰度。

协作

在团队环境中,如果能让多个用户处理同一项资源,或者能复制优质工作成果并将其作为模板提供给其他用户参考,很可能大有益处。利用 Dataprep,用户可以实时协同处理同一个流对象,或者创建副本供其他人单独使用。

全面的连接

除了 BigQuery、Cloud Storage、Microsoft Excel、Google 表格标准连接之外,您还可以使用 Salesforce、Oracle、Microsoft SQL Server、MySQL、PostgreSQL 等数百种数据源来丰富自助式分析。

数据流水线编排

通过将数据准备作业按依序和条件顺序连接在一起来调度和自动执行数据准备作业。在成功或失败时向用户发送提醒,并触发外部任务(例如 Cloud Functions)。利用丰富的 API,将 Dataprep 集成到企业的端到端解决方案中。

企业级运维

通过跨版本的配方导入/导出、流程参数、Dataflow 或 BigQuery 的自定义配置、性能调整和高级 API,采用持续部署做法来实现软件开发生命周期和监控的自动化。

常见数据类型

转换以 CSV、JSON 或关系型表格格式存储的结构化和非结构化数据集或从 MB 到 PB 级的任意规模的 SaaS 应用数据,皆可轻松简单地进行处理。

模式匹配

使用列式模式匹配,识别并在界面中呈现您感兴趣的数据模式,以便用来构建配方。此外,在配方步骤中,您可以应用正则表达式或 Dataprep 模式在您的数据集中定位模式并转换匹配数据。

标准化

根据拼写或与语言无关的发音按相似性将值分组,并创建值保持一致的标准化集群。

采样

为了优化性能,Dataprep 会自动生成一个或多个数据样本,供您在客户端应用中进行显示和操作。不过,您可以轻松更改样本大小、样本范围以及生成样本的方法。

高级安全设置

组合使用 Google IAM 角色和 BigQuery、Cloud Storage 和 Google 表格的访问权限来提供各个数据访问权限控制措施,从而扩展当前的安全标准。

Dataprep ELT 流水线架构

左侧是“提取”列,包含 BigQuery、Cloud Storage、Google 表格、Microsoft Excel、数据库、应用和文件上传中的原始数据。流程向右移动至“准备和存储”列,进入 Cloud Dataprep 和 Dataflow 中,并在 BigQuery 和 Cloud Storage 中优化数据。此列下方是“治理和自动化”:Data Catalog、Cloud Functions、Cloud Composer。流程继续向右移动至“分析和机器学习”列,包括 BigQuery/BigQueryML、Looker、Google Data Studio、合作伙伴 BI 服务(显示 Qlik 徽标)和 Cloud AI Platform。

Dataprep 让我们能够快速探索新的数据集,它的灵活性可以满足我们所有的数据转换需求。Merkle 现在几分钟就能完成数据准备工作,而不用花上几个小时或几天,这使数据准备时间缩短了 90%。

Henry Culver,Merkle IT 架构师

我们的客户

资源

价格

Dataprep 是一款交互式 Web 应用,用户可以通过与数据样本交互,来定义数据准备规则。如果要在完整数据集上执行流,则相应的流可以作为 Dataprep 作业(使用 Dataflow)执行。价格拆分为两个变量:设计和执行。设计的价格基于数量不受限制的用户的项目。执行的价格包括 Dataprep 中运行作业的 Dataflow 用量。如需了解详情,请参阅 Google Cloud Marketplace 中的价格页面

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。

不知从何入手,需要一点帮助?
与值得信赖的合作伙伴携手