Menghasilkan penyematan video menggunakan fungsi ML.GENERATE_LICENSEDING

Dokumen ini menunjukkan cara membuat BigQuery ML model jarak jauh yang mereferensikan embedding Vertex AI model dasar. Anda kemudian menggunakan model tersebut dengan Fungsi ML.GENERATE_EMBEDDING untuk membuat embedding video dengan menggunakan data dari BigQuery tabel objek.

Peran yang diperlukan

  • Untuk membuat koneksi, Anda memerlukan keanggotaan dalam peran Identity and Access Management (IAM) berikut:

    • roles/bigquery.connectionAdmin
  • Untuk memberikan izin ke akun layanan koneksi, Anda memerlukan izin berikut:

    • resourcemanager.projects.setIamPolicy
  • Untuk membuat model menggunakan BigQuery ML, Anda memerlukan izin IAM berikut:

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
    • bigquery.models.updateMetadata
  • Untuk menjalankan inferensi, Anda memerlukan izin berikut:

    • bigquery.tables.getData pada tabel
    • bigquery.models.getData pada model
    • bigquery.jobs.create

Sebelum memulai

  1. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  2. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  3. Aktifkan API BigQuery, BigQuery Connection, and Vertex AI.

    Mengaktifkan API

Membuat set data

Buat set data BigQuery untuk menyimpan model ML Anda:

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka halaman BigQuery

  2. Di panel Explorer, klik nama project Anda.

  3. Klik View actions > Create dataset.

    Buat set data.

  4. Di halaman Create dataset, lakukan hal berikut:

    • Untuk Dataset ID, masukkan bqml_tutorial.

    • Untuk Location type, pilih Multi-region, lalu pilih US (multiple regions in United States).

      Set data publik disimpan di US multi-region. Untuk mempermudah, simpan set data Anda di lokasi yang sama.

    • Jangan ubah setelan default yang tersisa, lalu klik Create dataset.

      Halaman Create dataset.

Membuat koneksi

Buat koneksi resource Cloud dan dapatkan akun layanan koneksi. Buat koneksi di lokasi yang sama dengan set data yang telah Anda buat di langkah sebelumnya.

Pilih salah satu opsi berikut:

Konsol

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Untuk membuat koneksi, klik Tambahkan, lalu klik Koneksi ke sumber data eksternal.

  3. Dalam daftar Connection type, pilih Vertex AI remote models, fungsi jarak jauh dan BigLake (Cloud Resource).

  4. Di kolom Connection ID, masukkan nama untuk koneksi Anda.

  5. Klik Create connection.

  6. Klik Go to connection.

  7. Di panel Connection info, salin ID akun layanan untuk digunakan di langkah berikutnya.

bq

  1. Di lingkungan command line, buat koneksi:

    bq mk --connection --location=REGION --project_id=PROJECT_ID \
        --connection_type=CLOUD_RESOURCE CONNECTION_ID
    

    Parameter --project_id akan mengganti project default.

    Ganti kode berikut:

    • REGION: region koneksi Anda
    • PROJECT_ID: project ID Google Cloud Anda
    • CONNECTION_ID: ID untuk koneksi Anda

    Saat Anda membuat resource koneksi, BigQuery akan membuat akun layanan sistem unik dan mengaitkannya dengan koneksi.

    Pemecahan masalah: Jika Anda mendapatkan error koneksi berikut, update Google Cloud SDK:

    Flags parsing error: flag --connection_type=CLOUD_RESOURCE: value should be one of...
    
  2. Ambil dan salin ID akun layanan untuk digunakan nanti langkah:

    bq show --connection PROJECT_ID.REGION.CONNECTION_ID
    

    Outputnya mirip dengan hal berikut ini:

    name                          properties
    1234.REGION.CONNECTION_ID     {"serviceAccountId": "connection-1234-9u56h9@gcp-sa-bigquery-condel."}
    

Terraform

Tambahkan bagian berikut ke dalam file main.tf Anda.

 ## This creates a cloud resource connection.
 ## Note: The cloud resource nested object has only one output only field - serviceAccountId.
 resource "google_bigquery_connection" "connection" {
    connection_id = "CONNECTION_ID"
    project = "PROJECT_ID"
    location = "REGION"
    cloud_resource {}
}        
Ganti yang berikut:

  • CONNECTION_ID: ID untuk koneksi Anda
  • PROJECT_ID: project ID Google Cloud Anda
  • REGION: region koneksi Anda

Memberikan akses pada akun layanan

Berikan peran Vertex AI User ke akun layanan koneksi.

Jika Anda berencana untuk menentukan endpoint sebagai URL saat membuat model jarak jauh, misalnya endpoint = 'https://us-central1-aiplatform.googleapis.com/v1/projects/myproject/locations/us-central1/publishers/google/models/text-embedding-004', berikan peran ini di project yang sama yang Anda tentukan di URL.

Jika Anda berencana menentukan endpoint menggunakan nama model saat membuat model jarak jauh, misalnya endpoint = 'text-embedding-004', berikan peran ini di project yang sama tempat Anda berencana membuat model jarak jauh.

Memberikan peran dalam project yang berbeda akan menghasilkan error bqcx-1234567890-xxxx@gcp-sa-bigquery-condel. does not have the permission to access resource.

Untuk memberikan peran tersebut, ikuti langkah-langkah berikut:

Konsol

  1. Buka halaman IAM & Admin.

    Buka IAM & Admin

  2. Klik Grant access.

    Dialog Add principals akan terbuka.

  3. Di kolom Akun utama baru, masukkan ID akun layanan yang Anda salin sebelumnya.

  4. Di kolom Pilih peran, pilih Vertex AI, lalu pilih Pengguna Vertex AI.

  5. Klik Simpan.

gcloud

Gunakan perintah gcloud projects add-iam-policy-binding:

gcloud projects add-iam-policy-binding 'PROJECT_NUMBER' --member='serviceAccount:MEMBER' --role='roles/aiplatform.user' --condition=None

Ganti kode berikut:

  • PROJECT_NUMBER: nomor project Anda
  • MEMBER: ID akun layanan yang Anda salin sebelumnya

Membuat tabel objek

Buat tabel objek yang menyimpan konten video. Tabel objek memungkinkan analisis video tanpa memindahkannya dari Cloud Storage.

Bucket Cloud Storage yang digunakan oleh tabel objek harus berada di project yang sama tempat Anda berencana membuat model dan memanggil Fungsi ML.GENERATE_EMBEDDING. Jika Anda ingin memanggil Fungsi ML.GENERATE_EMBEDDING dalam project yang berbeda dengan yang lain yang berisi bucket Cloud Storage yang digunakan oleh tabel objek, Anda harus memberikan peran Storage Admin di level bucket ke akun layanan service-A@gcp-sa-aiplatform..

Membuat model

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Dengan menggunakan editor SQL, buat model jarak jauh:

    CREATE OR REPLACE MODEL `PROJECT_ID.DATASET_ID.MODEL_NAME`
    REMOTE WITH CONNECTION `PROJECT_ID.REGION.CONNECTION_ID`
    OPTIONS (ENDPOINT = 'ENDPOINT');
    

    Ganti kode berikut:

    • PROJECT_ID: project ID Anda
    • DATASET_ID: ID set data untuk menampung model
    • MODEL_NAME: nama model
    • REGION: region yang digunakan oleh koneksi
    • CONNECTION_ID: ID Koneksi BigQuery

      Saat Anda melihat detail koneksi di Konsol Google Cloud, ini adalah nilai di bagian terakhir dari ID koneksi yang sepenuhnya memenuhi syarat Misalnya ID Koneksi projects/myproject/locations/connection_location/connections/myconnection

    • ENDPOINT: embedding LLM untuk digunakan, dalam hal ini multimodalembedding@001.

Membuat penyematan video

Buat embedding video dengan Fungsi ML.GENERATE_EMBEDDING dengan menggunakan data video dari tabel objek:

SELECT *
FROM ML.GENERATE_EMBEDDING(
  MODEL `PROJECT_ID.DATASET_ID.MODEL_NAME`,
  TABLE PROJECT_ID.DATASET_ID.TABLE_NAME,
  STRUCT(FLATTEN_JSON AS flatten_json_output,
    START_SECOND AS start_second,
    END_SECOND AS end_second,
    INTERVAL_SECONDS AS interval_seconds)
);

Ganti kode berikut:

  • PROJECT_ID: project ID Anda.
  • DATASET_ID: ID set data yang berisi model.
  • MODEL_NAME: nama model jarak jauh pada model multimodalembedding@001.
  • TABLE_NAME: nama tabel objek yang berisi video yang akan disematkan.
  • FLATTEN_JSON: nilai BOOL yang menunjukkan apakah akan mengurai embedding ke dalam kolom terpisah. Nilai defaultnya adalah TRUE.
  • START_SECOND: nilai FLOAT64 yang menentukan bagian kedua dalam video untuk memulai penyematan. Nilai defaultnya adalah 0. Nilai ini harus positif dan lebih kecil dari nilai end_second.
  • END_SECOND: nilai FLOAT64 yang menentukan di bagian akhir video untuk mengakhiri penyematan. Nilai defaultnya adalah 120. Nilai ini harus positif dan lebih besar dari nilai start_second.
  • INTERVAL_SECONDS: nilai FLOAT64 yang menentukan interval yang akan digunakan saat membuat embedding. Misalnya, jika Anda setel start_second = 0, end_second = 120, dan interval_seconds = 10, lalu video akan dibagi menjadi segmen berdurasi 10 detik ([0, 10), [10, 20), [20, 30)...) dan embedding dihasilkan untuk setiap segmen data. Nilai ini harus lebih besar dari 4 dan lebih kecil dari 120. Default nilainya adalah 16.

Contoh

Contoh berikut menunjukkan cara membuat embeddings untuk video dalam tabel objek videos. Embeddings dibuat untuk setiap interval 5 detik antara tanda 10 detik dan 40 detik di setiap video.

SELECT *
FROM
  ML.GENERATE_EMBEDDING(
    MODEL `mydataset.embedding_model`,
    TABLE `mydataset.videos`,
    STRUCT(TRUE AS flatten_json_output,
    10 AS start_second,
    40 AS end_second,
    5 AS interval_seconds)
  );