Wrangler 命令行指令

本页介绍了您可以在 Wrangler 中使用的指令。

在 Wrangler 高级模式(Wrangler CLI)中,您可以向配方添加指令和函数。如需了解详情,请参阅 Wrangler CLI 指令Wrangler 函数

Wrangler 支持以下指令:

列操作

指令 说明
更改列大小写 将列名称更改为小写或大写。
正在更改 案例 更改列值的大小写。
清理列名称 按照特定规则清理列名称。
列 替换 批量更改列名称。
复制 将源列中的值复制到目标列中。
移除列 丢弃记录中的列。
填充 Null 或 空白 如果值为 null 或空,请输入固定列值。
Keep 保留记录中的指定列。
合并 通过插入第三列来合并两列。
重命名 重命名记录中的现有列。
设置 标头 按照指定的顺序设置列的名称。
拆分为列 根据分隔符将列拆分为多列。
切换 交换两列的列名称。
集合类型 转换列的数据类型。

日期转换

指令 说明
差异日期 计算两个日期之间的差值。
格式 日期 用于日期时间格式的自定义模式。
格式化 UNIX 时间戳 将 UNIX 时间戳的格式设置为日期。

日期时间转换

指令 说明
当前 日期时间 根据指定时区生成当前日期时间。
将日期时间转换为时间戳 根据日期时间和给定时区创建时间戳。
格式 日期时间 将日期时间格式设置为给定格式的字符串。
将时间戳转换为日期时间 将时间戳转换为日期时间。

编码器和解码器

指令 说明
解码 将列值解码为 base32base64hex.
编码 将列值编码为 base32base64hex. 之一

哈希和遮盖

指令 说明
哈希 生成消息摘要。
面具 数值 对列值应用替换遮盖。
面具 随机播放 对列值应用重排遮盖。

查询

指令 说明
目录查找 ICD-9、ICD-10-2016 和 ICD-10-2017 代码的静态目录查询。
表查找 对表格数据集执行查找。

自然语言处理

指令 说明
词干提取 词元化字词 对英语单词应用波特词干提取算法。

输出格式化程序

指令 说明
写入方式 CSV 将记录转换为 CSV 格式。
写入方式 JSON 映射 将记录转换为 JSON 映射。
写入 JSON 对象 根据指定的字段组合 JSON 对象。
格式为 币种 将数字设置为货币格式(根据语言区域指定)。

解析器

指令 说明
JSON 路径 使用 DSL(JSON 路径表达式)解析 JSON 记录。
解析为 AVRO 文件 解析 AVRO 数据文件。
解析为 CSV 将输入记录解析为逗号分隔值
解析为货币 解析货币值,该值是本地字符串表示 转换为数字。
解析为日期时间 将字符串解析为具有给定格式的日期时间数据类型。
解析为 Excel 解析为 Microsoft Excel 文件。
解析为固定长度 解析为具有指定宽度的固定长度记录。
解析为 HL7 解析 Health Level 7 版本 2 (HL7 V2) 消息。
解析为 JSON 解析 JSON 对象。
解析为日志 解析访问日志文件,例如 Apache httpd 和 NGINX 服务器。
解析为简单日期 解析日期字符串。
解析为时间戳 将表示 Unix 时间戳的列值解析为日期。
将 XML 解析为 JSON 将 XML 文档解析为 JSON 结构。

行操作

指令 说明
过滤器 行 根据条件过滤记录。
如果匹配,过滤行 过滤与列模式匹配的行。
展平 用于分隔重复字段中的元素。
在满足条件时失败 当条件的求值结果为 true 时,处理失败。
发送至 错误 对错误收集器的记录进行过滤。
发送到错误并继续处理 将记录过滤到错误收集器并继续处理。
拆分为 行 根据分隔符将拆分为多个记录。

转换

指令 说明
更改 将列值的大小写更改为大写或小写 字符。
创建 录制 通过从以下位置复制值来创建包含嵌套值的记录列: 源列转换为目标列。
剪切字符 选择字符串值的各个部分。
设置列 将列值设置为表达式执行结果。
查找和替换 使用类似“sed”的表达式转换字符串列值。
量化 对列值应用量化。
提取正则表达式组 将一组正则表达式中的数据提取到自己的列中。
设置 字符集 设置编码,然后将数据转换为 UTF-8 字符串。
设置记录 Delim 设置记录分隔符。
拆分电子邮件 将电子邮件 ID 拆分为一个账号及其网域。
拆分 网址 将网址拆分为多个网址。
文本 距离(模糊字符串匹配) 衡量两个字符序列之间的差异。
文本指标 (模糊字符串匹配) 衡量两个字符序列之间的差异。
网址 解码 来自 application/x-www-form-urlencoded MIME 的解码 格式。
网址编码 编码为 application/x-www-form-urlencoded MIME 格式。
剪辑 聊天室 用于修剪字符串数据周围空格的函数。

瞬时汇总器和 setter

指令 说明
递增 变量 使用处理记录递增一个瞬时变量。
设置 变量 设置一个带有处理记录的瞬态变量。

唯一 ID

指令 说明
生成 UUID 生成一个通用唯一标识符 (UUID)。

后续步骤