ML.NGRAMS 函数

本文档介绍 ML.NGRAMS 函数,此函数可让您创建输入值的 N 元语法

语法

ML.NGRAMS(array_input, range [, separator])

参数

ML.NGRAMS 接受以下参数:

  • array_input:表示要合并的词元的 ARRAY<STRING> 值。
  • range:包含两个 INT64 元素或单个 INT64 值的 ARRAY。如果您指定 ARRAY 值,则 INT64 元素提供要返回的 N 元语法大小的范围。按从低到高的顺序提供数值。如果您指定单个 INT64 值 x,则要返回的 N 元语法大小的范围为 [x, x]
  • separator:指定输出中连接两个相邻词元的分隔符的 STRING 值。默认值为空格

输出

ML.NGRAMS 返回包含 N 元语法的 ARRAY<STRING> 值。

示例

以下示例输出一组三个输入字符串的所有可能的 2 词元和 3 词元组合:

SELECT
  ML.NGRAMS(['a', 'b', 'c'], [2,3], '#') AS output;

输出类似于以下内容:

+-----------------------+
|        output         |
+-----------------------+
| ["a#b","a#b#c","b#c"] |
+-----------------------+

后续步骤