Membuat embedding teks menggunakan model terbuka dan fungsi ML.GENERATE_EMBEDDING
Tutorial ini menunjukkan cara membuat
model jarak jauh
yang didasarkan pada
model embedding teks open source Qwen3-Embedding-0.6B,
lalu cara menggunakan model tersebut dengan
fungsi ML.GENERATE_EMBEDDING
untuk menyematkan ulasan film dari tabel publik bigquery-public-data.imdb.reviews
.
Izin yang diperlukan
Untuk menjalankan tutorial ini, Anda memerlukan peran Identity and Access Management (IAM) berikut:
- Membuat dan menggunakan set data, koneksi, dan model BigQuery:
Admin BigQuery (
roles/bigquery.admin
). - Memberikan izin ke akun layanan koneksi: Project IAM Admin
(
roles/resourcemanager.projectIamAdmin
). - Men-deploy dan membatalkan deployment model di Vertex AI: Vertex AI Administrator
(
roles/aiplatform.admin
).
Peran yang telah ditetapkan ini berisi izin yang diperlukan untuk melakukan tugas dalam dokumen ini. Untuk melihat izin yang benar-benar diperlukan, luaskan bagian Izin yang diperlukan:
Izin yang diperlukan
- Buat set data:
bigquery.datasets.create
- Membuat, mendelegasikan, dan menggunakan koneksi:
bigquery.connections.*
- Menetapkan koneksi default:
bigquery.config.*
- Tetapkan izin akun layanan:
resourcemanager.projects.getIamPolicy
danresourcemanager.projects.setIamPolicy
- Men-deploy dan membatalkan deployment model Vertex AI:
aiplatform.endpoints.deploy
aiplatform.endpoints.undeploy
- Buat model dan jalankan inferensi:
bigquery.jobs.create
bigquery.models.create
bigquery.models.getData
bigquery.models.updateData
bigquery.models.updateMetadata
Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.
Biaya
Dalam dokumen ini, Anda akan menggunakan komponen Google Cloudyang dapat ditagih berikut:
- BigQuery ML: You incur costs for the data that you process in BigQuery.
- Vertex AI: You incur costs for calls to the Vertex AI model that's represented by the remote model.
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Untuk mengetahui informasi selengkapnya tentang harga BigQuery, lihat harga BigQuery dalam dokumentasi BigQuery.
Model terbuka yang Anda deploy ke Vertex AI dikenai biaya per jam mesin. Artinya, penagihan dimulai segera setelah endpoint disiapkan sepenuhnya, dan berlanjut hingga Anda membatalkan deployment-nya. Untuk mengetahui informasi selengkapnya tentang harga Vertex AI, lihat halaman harga Vertex AI.
Sebelum memulai
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, BigQuery Connection, and Vertex AI APIs.
Men-deploy model Qwen3-Embedding-0.6B di Vertex AI
Deploy
Qwen/Qwen3-Embedding-0.6B
model dari Hugging Face ke Vertex AI, dengan mengikuti petunjuk di
Men-deploy model Hugging Face.
Selama deployment, Anda harus memilih Publik (endpoint bersama) sebagai nilai
untuk kolom Akses endpoint dalam alur kerja deployment.
Membuat set data
Buat set data BigQuery untuk menyimpan model ML Anda.
Konsol
Di konsol Google Cloud , buka halaman BigQuery.
Di panel Explorer, klik nama project Anda.
Klik
View actions > Create dataset.Di halaman Create dataset, lakukan hal berikut:
Untuk Dataset ID, masukkan
bqml_tutorial
.Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States).
Jangan ubah setelan default yang tersisa, lalu klik Create dataset.
bq
Untuk membuat set data baru, gunakan perintah bq mk
dengan flag --location
. Untuk daftar lengkap kemungkinan parameter, lihat referensi
perintah bq mk --dataset
.
Buat set data bernama
bqml_tutorial
dengan lokasi data yang ditetapkan keUS
dan deskripsiBigQuery ML tutorial dataset
:bq --location=US mk -d \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
Perintah ini menggunakan pintasan
-d
, bukan flag--dataset
. Jika Anda menghapus-d
dan--dataset
, perintah defaultnya adalah membuat set data.Pastikan set data telah dibuat:
bq ls
API
Panggil metode datasets.insert
dengan resource set data yang ditentukan.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
BigQuery DataFrames
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan BigQuery DataFrames di Panduan memulai BigQuery menggunakan BigQuery DataFrames. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi BigQuery DataFrames.
Untuk melakukan autentikasi ke BigQuery, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan ADC untuk lingkungan pengembangan lokal.
Membuat model jarak jauh
Buat model jarak jauh yang merepresentasikan model Vertex AI yang dihosting:
Di konsol Google Cloud , buka halaman BigQuery.
Di editor kueri, jalankan pernyataan berikut:
CREATE OR REPLACE MODEL `bqml_tutorial.qwen3_embedding_model` REMOTE WITH CONNECTION DEFAULT OPTIONS (ENDPOINT = 'https://ENDPOINT_REGION-aiplatform.googleapis.com/v1/projects/ENDPOINT_PROJECT_ID/locations/ENDPOINT_REGION/endpoints/ENDPOINT_ID');
Ganti kode berikut:
ENDPOINT_REGION
: region tempat model terbuka di-deploy.ENDPOINT_PROJECT_ID
: project tempat model terbuka di-deploy.ENDPOINT_ID
: ID endpoint HTTPS yang digunakan oleh model terbuka. Anda bisa mendapatkan ID endpoint dengan menemukan model yang terbuka di halaman Prediksi online dan menyalin nilai di kolom ID.
Contoh berikut menunjukkan format endpoint HTTP yang valid:
https://us-central1-aiplatform.googleapis.com/v1/projects/myproject/locations/us-central1/endpoints/1234
.
Kueri memerlukan waktu beberapa detik untuk diselesaikan, setelah itu model qwen3_embedding_model
akan muncul di set data bqml_tutorial
di panel Explorer.
Karena kueri menggunakan pernyataan CREATE MODEL
untuk membuat model, tidak akan ada hasil kueri.
Melakukan penyematan teks
Lakukan penyematan teks pada ulasan film IMDB dengan menggunakan model jarak jauh dan fungsi ML.GENERATE_EMBEDDING
:
Di konsol Google Cloud , buka halaman BigQuery.
Di editor kueri, masukkan pernyataan berikut untuk melakukan penyematan teks pada lima ulasan film:
SELECT * FROM ML.GENERATE_EMBEDDING( MODEL `bqml_tutorial.qwen3_embedding_model`, ( SELECT review AS content, * FROM `bigquery-public-data.imdb.reviews` LIMIT 5 ) );
Hasilnya mencakup kolom berikut:
ml_generate_embedding_result
: array ganda untuk merepresentasikan embedding yang dihasilkan.ml_generate_embedding_status
: status respons API untuk baris yang sesuai. Jika operasi berhasil, nilai ini akan kosong.content
: teks input yang akan diekstrak embedding-nya.- Semua kolom dari tabel
bigquery-public-data.imdb.reviews
.
Batalkan deployment model
Jika Anda memilih untuk tidak menghapus project seperti yang direkomendasikan, pastikan untuk membatalkan deployment model sematan Qwen3 di Vertex AI guna menghindari penagihan berkelanjutan untuk model tersebut.
Pembersihan
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Langkah berikutnya
- Pelajari cara menggunakan embedding teks untuk penelusuran semantik dan retrieval-augmented generation (RAG).