Fungsi ML.NGRAMS
Dokumen ini menjelaskan fungsi ML.NGRAMS
yang memungkinkan Anda membuat
n-gram nilai input.
Sintaksis
ML.NGRAMS(array_input, range [, separator])
Argumen
ML.NGRAMS
menggunakan argumen berikut:
array_input
: nilaiARRAY<STRING>
yang mewakili token yang akan digabungkan.range
:ARRAY
dari dua elemenINT64
atau nilaiINT64
tunggal. Jika Anda menentukan nilaiARRAY
, elemenINT64
akan memberikan rentang ukuran n-gram yang akan ditampilkan. Masukkan nilai numerik secara berurutan, mulai dari yang lebih rendah ke lebih tinggi. Jika Anda menentukan satu nilaiINT64
dari x, rentang ukuran n-gram yang akan ditampilkan adalah[x, x]
.separator
: nilaiSTRING
yang menentukan pemisah untuk menghubungkan dua token yang berdekatan dalam output. Nilai defaultnya adalah spasi kosong.
Output
ML.NGRAMS
menampilkan nilai ARRAY<STRING>
yang berisi n-gram.
Contoh
Contoh berikut menghasilkan semua kemungkinan kombinasi 2 token dan 3 token untuk sekumpulan tiga string input:
SELECT ML.NGRAMS(['a', 'b', 'c'], [2,3], '#') AS output;
Outputnya terlihat mirip dengan yang berikut ini:
+-----------------------+ | output | +-----------------------+ | ["a#b","a#b#c","b#c"] | +-----------------------+
Langkah selanjutnya
- Untuk mengetahui informasi tentang prapemrosesan fitur, lihat Ringkasan prapemrosesan fitur.
- Untuk mengetahui informasi tentang pernyataan dan fungsi SQL yang didukung untuk setiap jenis model, lihat Perjalanan pengguna menyeluruh untuk setiap model.