Fungsi ML.NGRAMS

Dokumen ini menjelaskan fungsi ML.NGRAMS yang memungkinkan Anda membuat n-gram nilai input.

Sintaksis

ML.NGRAMS(array_input, range [, separator])

Argumen

ML.NGRAMS menggunakan argumen berikut:

  • array_input: nilai ARRAY<STRING> yang mewakili token yang akan digabungkan.
  • range: ARRAY dari dua elemen INT64 atau nilai INT64 tunggal. Jika Anda menentukan nilai ARRAY, elemen INT64 akan memberikan rentang ukuran n-gram yang akan ditampilkan. Masukkan nilai numerik secara berurutan, mulai dari yang lebih rendah ke lebih tinggi. Jika Anda menentukan satu nilai INT64 dari x, rentang ukuran n-gram yang akan ditampilkan adalah [x, x].
  • separator: nilai STRING yang menentukan pemisah untuk menghubungkan dua token yang berdekatan dalam output. Nilai defaultnya adalah spasi kosong .

Output

ML.NGRAMS menampilkan nilai ARRAY<STRING> yang berisi n-gram.

Contoh

Contoh berikut menghasilkan semua kemungkinan kombinasi 2 token dan 3 token untuk sekumpulan tiga string input:

SELECT
  ML.NGRAMS(['a', 'b', 'c'], [2,3], '#') AS output;

Outputnya terlihat mirip dengan yang berikut ini:

+-----------------------+
|        output         |
+-----------------------+
| ["a#b","a#b#c","b#c"] |
+-----------------------+

Langkah selanjutnya