Dataprep by Trifacta

智能的云端数据服务,让您可以直观地探索、清理和准备数据,以备分析和机器学习之用。

查看此产品的文档

智能数据准备

智能数据准备

Cloud Dataprep by Trifacta 是一项智能的数据服务,让您可以直观地探索、清理和准备结构化数据及非结构化数据,以备分析、报告和机器学习之用。Cloud Dataprep 是一款无服务器工具,您可以处理任意规模的数据,而无需部署或管理任何基础架构。Dataprep 会根据您在界面中的每项输入,建议和预测接下来最合适的数据转换操作,您无需编写代码。

最新资讯

无服务器,简单易用

Cloud Dataprep 是一项由 Trifacta 负责运营的集成式合作伙伴服务,以该公司业界领先的数据准备解决方案为基础打造而成。 Google 与 Trifacta 密切合作,不要求用户预先安装任何软件、没有单独的许可费用或持续运营开销,可为用户提供流畅的使用体验。Cloud Dataprep 是一项全代管式服务,可按需扩缩,以满足您日益增加的数据准备需求,让您可以专注于分析。

快速探索和异常检测

直观的数据分布图可帮助您即时了解和探索数据。Cloud Dataprep 会自动检测架构、数据类型、潜在联接及异常(如值缺失、离群值和重复数据),让您可以跳过耗时的数据质量评估工作,直接进行数据探索和分析。

易用而强大的数据准备

您在界面中每执行一项操作,Cloud Dataprep 都会自动建议和预测接下来最合适的数据转换操作。在定义好转换序列后,Cloud Dataprep 会在后台使用 Cloud Dataflow 来转换数据,让您轻松点击几下就能处理任何规模的结构化或非结构化数据集,省去了编写代码的麻烦。

特性

预测性转换

Cloud Dataprep 采用专有的推理算法来解读用户在数据选择过程中体现出的数据转换意图。根据数据选择情况,会自动生成一组经过排序的建议和模式。

丰富的转换函数

使用数百种转换函数将数据转换为所需的资源。只需点击鼠标,即可应用聚合、透视、逆透视、联接、联合、提取、计算、比较、条件、合并、正则表达式等。

参数化

参数化一个变量来替换文件路径中随每次刷新而变化的部分,从而在相同数据集的多个实例中执行同一个配方。在作业运行时,可根据需要对该变量进行修改。

协作

在团队环境中,如果能让多个用户处理同一项资源,或者能复制优质工作成果并将其作为模板提供给其他用户参考,很可能大有益处。利用 Cloud Dataprep,用户可以实时协同处理同一个流对象,或者创建副本供其他人单独使用。

模式匹配

使用列式模式匹配,识别并在界面中呈现您感兴趣的数据模式,以便用来构建配方。此外,在配方步骤中,您可以应用正则表达式或 Cloud Dataprep 模式,在您的数据集中定位模式并转换匹配数据。

标准化

根据拼写或与语言无关的发音按相似性将值分组,并创建值保持一致的标准化集群。

有效剖析

通过交互式的直观数据分布图查看并探索数据,推进数据发现、清理和转换工作。直观的展示形式有助于解读大量数据。Cloud Dataprep 采用创新分析方法,能够以动态、清晰明了的格式实现关键统计信息的可视化。

采样

为了优化性能,Cloud Dataprep 会自动生成一个或多个数据样本,供您在客户端应用中进行显示和操作。不过,您可以轻松更改样本大小、样本范围以及生成样本的方法。

调度

您可以重复或根据需要定时执行流中的配方。成功执行定时作业后,您可以在指定的输出位置收集整理后的输出数据,系统会以您指定的发布格式在该位置提供数据。

快速定位

您可以根据导入或创建的数据集,定义目标架构并将其分配给现有配方,以系统化并加速您的整理工作。目标会显示在“转换器”页面中,并可以应用于需要进行整理的整个数据集或数据集的选定列。

常见数据类型

转换以 CSV、JSON 或关系型表格式存储的结构化和非结构化数据集,无论是 MB 还是 PB 级数据,皆可轻松简单地进行处理。

与 Google Cloud Platform 集成

处理存储在 Cloud Storage、BigQuery 或桌面设备上的数据,然后将经过优化的数据导出至 BigQuery 或 Cloud Storage,以进行存储、分析、可视化或机器学习。借助 Cloud Identity and Access Management 无缝管理用户访问权限和数据安全。

Cloud Dataprep 架构

Cloud Dataprep 架构

Cloud Dataprep 让我们能够快速探索新的数据集,它灵活多变,可以满足我们所有的数据转换需求。Merkle 现在几分钟就能完成数据准备工作,而不用花上几个小时或几天,这使数据准备时间缩短了 90%。

Henry Culver,Merkle IT 架构师

我们的客户

资源

价格

Cloud Dataprep 是一款交互式 Web 应用,让用户可通过与其数据样本交互来定义数据准备规则。如果要在完整数据集上执行流,则相应的流可以作为 Cloud Dataprep 作业(使用 Google Cloud Dataflow)执行。如需了解详情,请参阅我们的价格指南

更进一步

开始在 Google Cloud 上构建项目,获享 $300 赠金以及 20 多种始终免费的产品。

不知从何入手,需要一点帮助?
与值得信赖的合作伙伴携手