Memilih model penyematan teks

Dokumen ini memberikan tolok ukur performa dan biaya model penyematan teks yang tersedia di BigQuery ML. Anda dapat menggunakan informasi ini untuk membantu memutuskan model mana yang terbaik untuk kasus penggunaan Anda.

Model

Jenis model berikut tercakup dalam benchmark ini:

Model jarak jauh yang menargetkan model dasar textembedding-gecko@001 Vertex AI. Model ini bekerja dengan fungsi ML.GENERATE_EMBEDDING untuk menghasilkan embeddings.
Model jarak jauh yang menargetkan model BERT yang di-deploy sebagai endpoint Vertex AI. Model BERT dikonfigurasi seperti yang dijelaskan di Vertex AI Model Garden:
- Jenis mesin: n1-highmem-8
- Jenis akselerator: NVIDIA_TESLA_T4
- Jumlah akselerator: 1
Model ini bekerja dengan fungsi ML.PREDICT untuk menghasilkan embeddings.
Model TensorFlow yang diimpor yang menerapkan model NNLM dan SWIVEL. Model ini berfungsi dengan fungsi ML.PREDICT untuk menghasilkan embedding.

Tolok ukur menggunakan sintaksis yang dijelaskan pada Menyematkan teks dengan menggunakan fungsi ML.GENERATE_EMBEDDING untuk memproses kueri ML.GENERATE_EMBEDDING.

Tolok ukur menggunakan sintaksis yang dijelaskan pada Membuat embedding teks untuk memproses kueri ML.PREDICT.

Penghitungan biaya

Tolok ukur menghitung biaya BigQuery berdasarkan harga komputasi on-demand BigQuery (US $6,25 per TiB). Perhitungan ini tidak memperhitungkan fakta bahwa gratis 1 TiB pertama pemrosesan komputasi yang digunakan per bulan.

Biaya Vertex AI yang terkait dengan pemanggilan model BERT dihitung menggunakan tingkat prediksi n1-highmem-8.

Biaya Vertex AI yang terkait dengan pemanggilan model textembedding-gecko dihitung menggunakan tingkat prediksi Embeddings for Text.

Untuk informasi tentang harga BigQuery ML, lihat Harga ML BigQuery.

Data tolok ukur

Benchmark menggunakan set data publik bigquery-public-data.hacker_news.full, yang disiapkan sebagai berikut:

Menyalin data ke dalam tabel pengujian, menduplikasi setiap baris 100 kali:

CREATE OR REPLACE TABLE `mydataset.hacker_news.large` AS
  SELECT base.*
  FROM `bigquery-public-data.hacker_news.full` AS base,
  UNNEST(GENERATE_ARRAY(1, 100)) AS repeat_number;

Membuat tabel pengujian tambahan dengan berbagai ukuran untuk digunakan dalam benchmark, berdasarkan tabel hacker_news.large. Menggunakan tabel pengujian dengan ukuran berikut:
- 100.000 baris
- 1.000.000 baris
- 10.000.000 baris
- 100.000.000 baris
- 1.000.000.000 baris
- 10.000.000.000 baris

Patok Banding

Tabel berikut berisi data tolok ukur:

Model	Dimensi penyematan	Jumlah baris	Run time	Total slot milidetik	Byte yang diproses	Layanan yang digunakan	Biaya dalam USD
SWIVEL	20	100.000	5 detik	6.128	37 MB	BigQuery	0,00022
		1 juta	1 menit, 1 detik	97.210	341 MB		0,00203
		10 juta	28 detik	1.203.838	3,21 GB		0,01959
		100 juta	32 detik	11.755.909	31,9 GB		0,19470
		1 miliar	2 menit, 3 detik	135.754.696	312,35 GB		1,90643
		10 miliar	19 menit, 55 detik	1.257.462.851	3,12 TB		19,5
NNLM	50	100.000	18 detik	66.112	227 MB	BigQuery	0,00135
		1 juta	1 menit, 1 detik	666.875	531 MB		0,00316
		10 juta	19 detik	4.140.396	3,39 GB		0,02069
		100 juta	27 detik	14.971.248	32,08 GB		0,19580
		1 miliar	8 menit, 16 detik	288.221.149	312,54 GB		1,90759
		10 miliar	19 menit, 28 detik	1.655.252.687	3,12 TB		19,5
BERT¹	768	100.000	29 menit, 37 detik	2.731.868	38 MB	BigQuery	0,00022
		100.000	29 menit, 37 detik	2.731.868	38 MB	Vertex AI	8,11
		1 juta	5 jam, 10 detik	28.905.706	339 MB	BigQuery	0,00196
		1 juta	5 jam, 10 detik	28.905.706	339 MB	Vertex AI	9,98
LLM `textembedding-gecko@001` Vertex AI²	768	100.000	14 menit, 14 detik	1.495.297	38 MB	BigQuery	0,00022
		100.000	14 menit, 14 detik	1.495.297	38 MB	Vertex AI	0,73
		1 juta	2 jam, 24 menit	17.342.114	339 MB	BigQuery	0,00196
		1 juta	2 jam, 24 menit	17.342.114	339 MB	Vertex AI	2,97

¹ Tugas kueri BigQuery dibatasi hingga 6 jam, sehingga model ini hanya diukur hingga 1 juta baris. Anda dapat menggunakan lebih banyak resource komputasi dari Vertex AI Model Garden untuk memungkinkan tugas memproses lebih banyak baris dalam batas 6 jam. Misalnya, Anda dapat menambah jumlah akselerator.

² Tugas kueri BigQuery dibatasi hingga 6 jam, sehingga model ini hanya diukur hingga 1 juta baris. Anda dapat meminta kuota yang lebih tinggi agar tugas dapat memproses lebih banyak baris dalam batas 6 jam. Anda juga dapat menggunakan kumpulan skrip SQL ini atau paket Dataform ini untuk melakukan iterasi melalui panggilan inferensi di luar batas 6 jam.