Menerjemahkan teks dengan fungsi ML.TRANSLATE

Dokumen ini menjelaskan cara menggunakan fungsi ML.TRANSLATE dengan model jarak jauh untuk menerjemahkan teks dari tabel standar BigQuery.

Untuk mengetahui informasi tentang inferensi model di BigQuery ML, lihat Ringkasan inferensi model.

Untuk mengetahui informasi tentang jenis model yang didukung dari setiap pernyataan dan fungsi SQL, serta semua pernyataan dan fungsi SQL yang didukung untuk setiap jenis model, baca Perjalanan pengguna menyeluruh untuk setiap model.

Izin yang diperlukan

  • Untuk membuat koneksi, Anda memerlukan keanggotaan dalam peran berikut:

    • roles/bigquery.connectionAdmin
  • Untuk memberikan izin ke akun layanan koneksi, Anda memerlukan izin berikut:

    • resourcemanager.projects.setIamPolicy
  • Untuk membuat model menggunakan BigQuery ML, Anda memerlukan izin berikut:

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
    • bigquery.models.updateMetadata
  • Untuk menjalankan inferensi, Anda memerlukan izin berikut:

    • bigquery.tables.getData pada tabel
    • bigquery.models.getData pada model
    • bigquery.jobs.create

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Aktifkan API BigQuery, BigQuery Connection API, and Cloud Translation.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Aktifkan API BigQuery, BigQuery Connection API, and Cloud Translation.

    Mengaktifkan API

Buat koneksi

Buat koneksi resource cloud, lalu dapatkan akun layanan koneksi.

Pilih salah satu opsi berikut:

Konsol

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Untuk membuat koneksi, klik Add, lalu klik Connections to external data sources.

  3. Dalam daftar Connection type, pilih Vertex AI remote models, remote functions and BigLake (Cloud Resource).

  4. Di kolom Connection ID, masukkan nama untuk koneksi Anda.

  5. Klik Create connection.

  6. Klik Go to connection.

  7. Di panel Connection info, salin ID akun layanan untuk digunakan di langkah berikutnya.

bq

  1. Di lingkungan command line, buat koneksi:

    bq mk --connection --location=REGION --project_id=PROJECT_ID \
        --connection_type=CLOUD_RESOURCE CONNECTION_ID
    

    Parameter --project_id akan mengganti project default.

    Ganti kode berikut:

    • REGION: region koneksi Anda
    • PROJECT_ID: project ID Google Cloud Anda
    • CONNECTION_ID: ID untuk koneksi Anda

    Saat Anda membuat resource koneksi, BigQuery akan membuat akun layanan sistem unik dan mengaitkannya dengan koneksi.

    Pemecahan masalah: Jika Anda mendapatkan error koneksi berikut, update Google Cloud SDK:

    Flags parsing error: flag --connection_type=CLOUD_RESOURCE: value should be one of...
    
  2. Ambil dan salin ID akun layanan untuk digunakan di langkah berikutnya:

    bq show --connection PROJECT_ID.REGION.CONNECTION_ID
    

    Outputnya mirip dengan hal berikut ini:

    name                          properties
    1234.REGION.CONNECTION_ID     {"serviceAccountId": "connection-1234-9u56h9@gcp-sa-bigquery-condel.iam.gserviceaccount.com"}
    

Terraform

Tambahkan bagian berikut ke dalam file main.tf Anda.

 ## This creates a cloud resource connection.
 ## Note: The cloud resource nested object has only one output only field - serviceAccountId.
 resource "google_bigquery_connection" "connection" {
    connection_id = "CONNECTION_ID"
    project = "PROJECT_ID"
    location = "REGION"
    cloud_resource {}
}        
Ganti kode berikut:

  • CONNECTION_ID: ID untuk koneksi Anda
  • PROJECT_ID: project ID Google Cloud Anda
  • REGION: region koneksi Anda

Memberikan akses ke akun layanan

Pilih salah satu opsi berikut:

Konsol

  1. Buka halaman IAM & Admin.

    Buka IAM & Admin

  2. Klik Add.

    Dialog Add principals akan terbuka.

  3. Di kolom New principals, masukkan ID akun layanan yang Anda salin sebelumnya.

  4. Di kolom Select a role, pilih Service Usage, lalu pilih Service Usage Consumer.

  5. Klik Add another role.

  6. Pada kolom Pilih peran, pilih BigQuery, lalu pilih Pengguna Koneksi BigQuery.

  7. Click Tambahkan peran lain.

  8. Pada kolom Pilih peran, pilih Cloud Translation, lalu pilih Pengguna Cloud Translation API.

  9. Klik Save.

gcloud

Gunakan perintah gcloud projects add-iam-policy-binding:

gcloud projects add-iam-policy-binding 'PROJECT_NUMBER' --member='serviceAccount:MEMBER' --role='roles/serviceusage.serviceUsageConsumer' --condition=None
gcloud projects add-iam-policy-binding 'PROJECT_NUMBER' --member='serviceAccount:MEMBER' --role='roles/bigquery.connectionUser' --condition=None
gcloud projects add-iam-policy-binding 'PROJECT_NUMBER' --member='serviceAccount:MEMBER' --role='roles/cloudtranslate.user' --condition=None

Ganti kode berikut:

  • PROJECT_NUMBER: nomor project Anda.
  • MEMBER: ID akun layanan yang Anda salin sebelumnya.

Kegagalan memberikan izin akan menyebabkan error.

Membuat model

Buat model jarak jauh dengan REMOTE_SERVICE_TYPE dari CLOUD_AI_TRANSLATE_V3:

CREATE OR REPLACE MODEL
`PROJECT_ID.DATASET_ID.MODEL_NAME`
REMOTE WITH CONNECTION PROJECT_ID.REGION.CONNECTION_ID
OPTIONS (REMOTE_SERVICE_TYPE = 'CLOUD_AI_TRANSLATE_V3');

Ganti kode berikut:

  • PROJECT_ID: project ID Anda.
  • DATASET_ID: ID set data yang akan berisi model. Set data ini harus berada di lokasi yang sama dengan koneksi yang Anda gunakan.
  • MODEL_NAME: nama model.
  • REGION: region yang digunakan oleh koneksi.
  • CONNECTION_ID: ID koneksi—misalnya, myconnection.

    Saat Anda melihat detail koneksi di Konsol Google Cloud, ID koneksi adalah nilai di bagian terakhir ID koneksi yang sepenuhnya memenuhi syarat, yang ditampilkan di Connection ID—misalnya projects/myproject/locations/connection_location/connections/myconnection.

Menerjemahkan teks

Menerjemahkan teks dengan fungsi ML.TRANSLATE:

SELECT *
FROM ML.TRANSLATE(
  MODEL `PROJECT_ID.DATASET_ID.MODEL_NAME`,
  { TABLE PROJECT_ID.DATASET_ID.TABLE_NAME | (QUERY) },
  STRUCT('MODE' AS translate_mode, ['LANGUAGE' AS target_language_code])
);

Ganti kode berikut:

  • PROJECT_ID: project ID Anda.
  • DATASET_ID: ID set data yang berisi model.
  • MODEL_NAME: nama model.
  • TABLE_NAME: nama tabel yang berisi teks yang akan diterjemahkan dalam kolom bernama text_content. Jika teks berada di kolom dengan nama yang berbeda, tentukan text_content sebagai alias untuk kolom tersebut.
  • QUERY: kueri yang berisi teks untuk diterjemahkan dalam kolom bernama text_content. Jika teks berada dalam kolom dengan nama yang berbeda, tentukan text_content sebagai alias untuk kolom tersebut.
  • MODE: nama untuk mode terjemahan yang didukung.
  • LANGUAGE: nama kode bahasa yang didukung. Argumen ini hanya diperlukan saat Anda menggunakan mode terjemahan TRANSLATE_TEXT.

Contoh 1

Contoh berikut menerjemahkan teks dari kolom text_content tabel ke bahasa Hindi:

SELECT * FROM ML.TRANSLATE(
  MODEL `mydataset.mytranslatemodel`,
  TABLE mydataset.mytable,
  STRUCT('translate_text' AS translate_mode, 'hi' AS target_language_code))
);

Contoh 2

Contoh berikut mendeteksi bahasa teks di kolom comment tabel:

SELECT * FROM ML.TRANSLATE(
  MODEL `mydataset.mytranslatemodel`,
  (SELECT comment AS text_content from mydataset.mytable),
  STRUCT('detect_language' AS translate_mode)
);

Langkah selanjutnya

Coba notebook Analisis data tidak terstruktur dengan model terlatih BigQuery ML dan Vertex AI.