Funktion ML.NGRAMS

In diesem Dokument wird die Funktion ML.NGRAMS beschrieben, mit der Sie N-Gramme der Eingabewerte erstellen können.

Syntax

ML.NGRAMS(array_input, range [, separator])

Argumente

ML.NGRAMS verwendet die folgenden Argumente:

  • array_input: ein ARRAY<STRING>-Wert, der die zusammenzuführenden Tokens darstellt.
  • range: ein ARRAY von zwei INT64-Elementen oder ein einzelner INT64-Wert. Wenn Sie einen ARRAY-Wert angeben, wird mit den INT64-Elementen der Bereich der N-Gramm-Größen festgelegt, die zurückgegeben werden sollen. Geben Sie dabei die numerischen Werte in absteigender Reihenfolge an. Wenn Sie einen einzelnen INT64-Wert von x angeben, ist der Bereich der N-Gramm-Größen [x, x].
  • separator: ein STRING-Wert, der das Trennzeichen für die Verbindung zweier benachbarter Tokens in der Ausgabe angibt. Der Standardwert ist das Leerzeichen .

Ausgabe

ML.NGRAMS gibt einen ARRAY<STRING>-Wert zurück, der die N-Gramme enthält.

Beispiel

Im folgenden Beispiel werden alle denkbaren Kombinationen aus 2 und 3 Tokens für eine Gruppe von drei Eingabestrings ausgegeben:

SELECT
  ML.NGRAMS(['a', 'b', 'c'], [2,3], '#') AS output;

Die Ausgabe sieht dann ungefähr so aus:

+-----------------------+
|        output         |
+-----------------------+
| ["a#b","a#b#c","b#c"] |
+-----------------------+

Nächste Schritte