Pengantar framework resolusi entity BigQuery

Dokumen ini menjelaskan arsitektur framework resolusi entity BigQuery. Penyelesaian entitas adalah kemampuan untuk mencocokkan data di seluruh data bersama jika tidak ada ID umum atau untuk menambah data bersama menggunakan layanan identitas dari partner Google Cloud.

Dokumen ini ditujukan untuk pengguna akhir resolusi entitas (selanjutnya disebut pengguna akhir) dan penyedia identitas. Untuk mengetahui detail penerapan, lihat artikel Mengonfigurasi dan menggunakan resolusi entity di BigQuery.

Anda dapat menggunakan resolusi entitas BigQuery untuk data apa pun yang dipersiapkan sebelum berkontribusi pada data ke dalam ruang bersih data. Resolusi entity tersedia dalam model harga on-demand dan kapasitas, serta di semua edisi BigQuery.

Manfaat

Sebagai pengguna akhir, Anda dapat memanfaatkan resolusi entity dengan cara berikut:

  • Anda dapat me-resolve entity di tempat tanpa memicu biaya transfer data karena pelanggan atau partner Google Cloud mencocokkan data Anda dengan tabel identitas mereka dan menulis hasil pencocokan ke set data dalam project Anda.
  • Anda tidak perlu mengelola tugas ekstrak, transformasi, dan pemuatan (ETL).

Sebagai penyedia identitas, Anda dapat memanfaatkan resolusi entity dengan cara berikut:

  • Anda dapat menawarkan resolusi entitas sebagai penawaran software as a service (SaaS) terkelola di Google Cloud Marketplace.
  • Anda dapat menggunakan grafik identitas eksklusif dan logika pencocokan tanpa mengungkapkannya kepada pengguna.

Arsitektur

BigQuery menerapkan resolusi entity menggunakan panggilan fungsi jarak jauh yang mengaktifkan proses resolusi entity di lingkungan penyedia identitas. Data Anda tidak perlu disalin atau dipindahkan selama proses ini. Diagram dan penjelasan berikut menjelaskan alur kerja untuk resolusi entity:

Diagram yang menunjukkan dua bagian utama: project pengguna akhir dan project penyedia
ID.

  1. Pengguna akhir memberikan akses baca akun layanan penyedia identitas ke set data input mereka, dan akses tulis ke set data output mereka.
  2. Pengguna memanggil fungsi jarak jauh yang mencocokkan data inputnya dengan data grafik identitas penyedia. Parameter yang cocok diteruskan ke penyedia dengan fungsi jarak jauh.
  3. Akun layanan penyedia membaca set data input dan memprosesnya.
  4. Akun layanan penyedia menulis hasil resolusi entitas ke set data output pengguna.

Bagian berikut menjelaskan komponen pengguna akhir dan project penyedia.

Komponen pengguna akhir

Komponen pengguna akhir mencakup hal berikut:

  • Panggilan fungsi jarak jauh: panggilan yang menjalankan prosedur yang ditentukan dan diimplementasikan oleh penyedia identitas. Panggilan ini memulai proses resolusi entitas.
  • Set data input: set data sumber yang berisi data yang akan dicocokkan. Secara opsional, set data dapat berisi tabel metadata dengan parameter tambahan. Penyedia menentukan persyaratan skema untuk set data input.
  • Set data output: set data tujuan tempat penyedia menyimpan hasil yang cocok sebagai tabel output. Secara opsional, penyedia dapat menulis tabel status tugas yang berisi detail tugas resolusi entitas ke set data ini. Set data output dapat sama dengan set data input.

Komponen penyedia identitas

Komponen penyedia identitas mencakup hal berikut:

  • Plane kontrol: berisi fungsi jarak jauh BigQuery yang mengatur proses pencocokan. Fungsi ini dapat diterapkan sebagai tugas Cloud Run, atau fungsi Cloud Run. Bidang kontrol juga dapat berisi layanan lain, seperti autentikasi dan otorisasi.
  • Data plane: berisi set data grafik identitas dan prosedur yang disimpan yang menerapkan logika pencocokan penyedia. Prosedur tersimpan dapat diterapkan sebagai prosedur tersimpan SQL atau prosedur tersimpan Apache Spark. Set data grafik identitas berisi tabel yang cocok dengan data pengguna akhir.

Langkah selanjutnya