Função ML.NGRAMS

Neste documento, descrevemos a função ML.NGRAMS, que permite criar n-grams dos valores de entrada.

Sintaxe

ML.NGRAMS(array_input, range [, separator])

Argumentos

ML.NGRAMS usa os seguintes argumentos:

  • array_input: um valor ARRAY<STRING> que representa os tokens a serem mesclados.
  • range: um ARRAY de dois elementos INT64 ou um único valor INT64. Se você especificar um valor ARRAY, os elementos INT64 fornecerão o intervalo de tamanhos n-grama a serem retornados. Forneça os valores numéricos em ordem, da menor para a maior. Se você especificar um único valor INT64 de x, o intervalo de tamanhos n-gram a serem retornados será [x, x].
  • separator um valor STRING que especifica o separador para conectar dois tokens adjacentes na saída. O valor padrão é espaço em branco .

Saída

ML.NGRAMS retorna um valor ARRAY<STRING> que contém os n-grams.

Exemplo

O exemplo a seguir gera todas as combinações possíveis de dois e três tokens para um conjunto de três strings de entrada:

SELECT
  ML.NGRAMS(['a', 'b', 'c'], [2,3], '#') AS output;

A saída será assim:

+-----------------------+
|        output         |
+-----------------------+
| ["a#b","a#b#c","b#c"] |
+-----------------------+

A seguir