La funzione ML.NGRAMS

Questo documento descrive la funzione ML.NGRAMS, che consente di creare n-grammi dei valori di input.

Sintassi

ML.NGRAMS(array_input, range [, separator])

Argomenti

ML.NGRAMS accetta i seguenti argomenti:

  • array_input: un valore ARRAY<STRING> che rappresenta i token da unire.
  • range: un ARRAY di due elementi INT64 o un singolo valore INT64. Se specifichi un valore ARRAY, gli elementi INT64 forniscono l'intervallo di dimensioni in n-grammi da restituire. Fornisci i valori numerici in ordine, dal più basso al più alto. Se specifichi un singolo valore INT64 di x, l'intervallo di n-grammi di dimensioni da restituire è [x, x].
  • separator: un valore STRING che specifica il separatore per collegare due token adiacenti nell'output. Il valore predefinito è lo spazio vuoto .

Output

ML.NGRAMS restituisce un valore ARRAY<STRING> che contiene i n-grammi.

Esempio

L'esempio seguente restituisce tutte le possibili combinazioni di 2 e 3 token per un insieme di tre stringhe di input:

SELECT
  ML.NGRAMS(['a', 'b', 'c'], [2,3], '#') AS output;

L'output è simile al seguente:

+-----------------------+
|        output         |
+-----------------------+
| ["a#b","a#b#c","b#c"] |
+-----------------------+

Passaggi successivi