Halaman ini diterjemahkan oleh Cloud Translation API.

Pengantar konektor dan penyimpanan data

Konektor mendapatkan data dari sumber data Google dan pihak ketiga ke Gemini Enterprise, lalu menyimpannya di penyimpanan data khusus. Dokumen ini memberikan ringkasan tentang konektor ini. Memusatkan data Anda di Gemini Enterprise akan meningkatkan aksesibilitas data, fungsi penelusuran, dan kemampuan analisis.

Gambar ringkasan yang menunjukkan cara konektor mendapatkan data ke Gemini Enterprise. — Ringkasan konektor

Konsep konektor dan penyimpanan data

Penyimpanan data

Setiap sumber data mendukung serangkaian jenis entity. Misalnya, Jira Cloud memiliki entitas seperti masalah, lampiran, komentar, dan log aktivitas, yang unik untuk sumber data. Gemini Enterprise membuat penyimpanan data terpisah untuk setiap entitas. Oleh karena itu, saat Anda membuat penyimpanan data menggunakan konsol Google Cloud , Anda akan mendapatkan kumpulan penyimpanan data yang merepresentasikan entitas data yang di-ingest ini.

Penggabungan data versus penyerapan (pengindeksan)

Federasi data secara langsung mengambil informasi dari sumber data yang ditentukan. Karena data tidak disalin ke indeks Vertex AI Search, Anda tidak perlu khawatir tentang penyimpanan data. Namun, karena data tidak diindeks, kualitas penelusuran mungkin lebih rendah.

Penyerapan data (pengindeksan) menyalin data ke indeks Vertex AI Search. Hal ini dapat meningkatkan kualitas penelusuran. Namun, proses ini menggunakan lebih banyak penyimpanan dan waktu.

Data tidak terstruktur

Format data yang didukung khusus untuk sumber data dan jenis entity. Jika konten dalam entitas disimpan dalam format tidak terstruktur — seperti HTML, PDF, TXT, PPTX, atau DOCX — penyimpanan data tidak terstruktur dibuat oleh Vertex AI Search. Untuk mengetahui informasi selengkapnya dan jenis file yang didukung, lihat Penelusuran tidak terstruktur.

Data terstruktur

Format data yang didukung khusus untuk sumber data dan jenis entity. Jika konten dalam entitas disimpan dalam format terstruktur, penyimpanan data terstruktur akan dibuat oleh Vertex AI Search. Untuk mengetahui informasi selengkapnya, lihat Penelusuran terstruktur.

Skema data

Skema data menentukan struktur data. Saat Anda mengimpor data terstruktur menggunakan Gemini Enterprise, sistem akan otomatis mendeteksi skema. Anda dapat menggunakan skema yang terdeteksi otomatis atau menentukan skema menggunakan API. Untuk mengetahui informasi selengkapnya, lihat Menyediakan atau mendeteksi skema secara otomatis.

Region penyimpanan data

Saat memproses data, Anda perlu memilih region tempat Anda ingin menyimpan data, seperti global, AS, atau Uni Eropa. Untuk mengetahui informasi selengkapnya, lihat Lokasi Gemini Enterprise. Data yang disimpan di wilayah AS atau Uni Eropa memerlukan enkripsi data. Enkripsi default adalah dengan Google-owned and Google-managed encryption key, tetapi sebagai alternatif, Anda dapat menggunakan kunci enkripsi yang dikelola pelanggan.

Sinkronisasi data

Sinkronisasi data menarik dan memperbarui data identitas (seperti peran, izin, dan pengguna) serta data entitas (seperti data yang terkait dengan sumber data tertentu) dari sumber data asli. Untuk mengetahui informasi selengkapnya, lihat Jenis dan jadwal sinkronisasi data.

Jenis dan jadwal sinkronisasi data

Sinkronisasi data mengambil data entitas, data identitas, atau keduanya, dan memperbarui isi penyimpanan data di Gemini Enterprise.

Jenis sinkronisasi

Penyimpanan data di Gemini Enterprise menggunakan dua jenis sinkronisasi data penting:

Sinkronisasi penuh merekam seluruh status aplikasi atau layanan pihak ketiga. Hal ini mencakup penambahan, pembaruan, dan penghapusan. Sinkronisasi penuh menggantikan isi penyimpanan data yang ada.
Sinkronisasi inkremental secara berkala mengambil data entitas yang telah ditambahkan atau diperbarui sejak sinkronisasi terakhir. Tindakan ini tidak menyinkronkan data identitas atau penghapusan data entitas.

Anda dapat menjadwalkan sinkronisasi penuh secara terpisah untuk jenis data berikut:

Sinkronisasi entity mengambil data khusus untuk sumber data pihak ketiga. Misalnya, penyimpanan data untuk sistem seperti Jira dapat menyinkronkan masalah, log aktivitas, komentar, dan lampiran. Sinkronisasi entitas tidak menyertakan informasi identitas.
Sinkronisasi identitas merekam data tentang akun pengguna yang terkait dengan grup ACL.

Interaksi antara sinkronisasi identitas dan sinkronisasi penuh

Untuk memahami cara kerja proses sinkronisasi identitas individual dengan proses sinkronisasi penuh, pertimbangkan contoh skenario yang mencakup dua halaman: page_1, yang ditautkan ke grup ACL group_1; dan page_2, yang ditautkan ke grup ACL group_2.

Sinkronisasi identitas awal berjalan, dan mengambil informasi tentang grup group_1 dan group_2.
- Asumsikan bahwa group_1 berisi pengguna user_1.
- Asumsikan bahwa group_2 berisi pengguna user_2.
Sinkronisasi identitas ini membuat pemetaan berikut:
- user_1 dipetakan ke group_1.
- user_2 dipetakan ke group_2.
Selain sinkronisasi identitas, sinkronisasi penuh akan berjalan, mengambil page_1 dan page_2.

Sinkronisasi penuh ini menetapkan pemetaan berikut:
- user_1 memiliki akses ke page_1 (melalui group_1).
- user_2 memiliki akses ke page_2 (melalui group_2).

Jadwal sinkronisasi

Untuk setiap penyimpanan data, Anda dapat memilih frekuensi untuk berbagai jenis sinkronisasi:

Sinkronisasi penuh semua data identitas dan data entitas dapat dijadwalkan secara bersamaan setiap 3 jam, 6 jam, 12 jam, 1 hari, atau 3 hari.
Sinkronisasi penuh independen dari semua data identitas, dan sinkronisasi penuh independen dari semua data entitas, dapat dijadwalkan secara terpisah menggunakan salah satu frekuensi sinkronisasi kustom berikut:
- Data entitas: Setiap 3 jam, 6 jam, 12 jam, 1 hari, 3 hari, 5 hari, dan setiap 7 hari.
- Data identitas: Setiap 30 menit, 1 jam, 3 jam, 6 jam, 12 jam, 1 hari, 3 hari, 5 hari, dan setiap 7 hari.
Sinkronisasi inkremental data entitas yang diperbarui atau ditambahkan dapat dijadwalkan setiap 3 jam, 6 jam, 12 jam, 1 hari, 3 hari, 5 hari, atau setiap 7 hari. Secara default, sinkronisasi inkremental dilakukan setiap 3 jam.

Catatan: Sinkronisasi inkremental harus dijadwalkan agar terjadi lebih sering daripada sinkronisasi penuh. Misalnya, jika Anda telah menjadwalkan sinkronisasi penuh setiap 12 jam, Anda hanya dapat menjadwalkan sinkronisasi inkremental setiap 3 jam atau setiap 6 jam.

Jika Anda menjadwalkan sinkronisasi inkremental dan sinkronisasi penuh untuk frekuensi yang sama, sinkronisasi inkremental akan otomatis dijeda dan memerlukan intervensi manual untuk dilanjutkan.

Rekomendasi frekuensi

Pilih frekuensi sinkronisasi data yang sesuai dengan volume data yang diambil dan kueri per detik (QPS) yang direkomendasikan.

Tabel berikut menunjukkan jumlah kumpulan data yang biasanya diambil untuk sinkronisasi satu, tiga, lima, dan tujuh hari. Jumlah sebenarnya data yang ditampilkan dapat bervariasi, bergantung pada sumber data dan konfigurasinya.

QPS	Volume rekaman untuk sinkronisasi 1 hari	Volume rekaman untuk sinkronisasi 3 hari	Volume rekaman untuk sinkronisasi 5 hari	Volume rekaman untuk sinkronisasi 7 hari
5	432 ribu	1,296 jt	2,16 JT	3M
10	864 ribu	2.592M	4,32 JT	6M
20	1,7 JT	5,1 JT	8,5 JT	11,9 JT
50	4,3 JT	12,9 JT	21,5 JT	30,1 JT
100	8,6 JT	25,8 JT	43 JT	60,2 JT

Menjeda dan melanjutkan sinkronisasi

Anda dapat menjeda dan melanjutkan sinkronisasi penuh dan sinkronisasi inkremental:

Saat Anda menjeda jenis sinkronisasi, penyimpanan data akan membatalkan sinkronisasi jenis tersebut yang sedang berlangsung dan berhenti menjadwalkan sinkronisasi jenis tersebut yang baru.
Saat Anda melanjutkan jenis sinkronisasi, penyimpanan data akan menjadwalkan sinkronisasi baru berdasarkan waktu sinkronisasi terjadwal terakhir, tetapi tidak melanjutkan sinkronisasi yang terganggu sebelumnya.

Misalnya, jika Anda menjeda sinkronisasi penuh saat sinkronisasi penuh sedang berlangsung, penyimpanan data akan membatalkan sinkronisasi tersebut. Jika Anda melanjutkan sinkronisasi penuh nanti, penyimpanan data akan otomatis menjadwalkan sinkronisasi penuh baru sesuai dengan jadwal sinkronisasi penuh.

Sumber data Google

Anda dapat terhubung ke sumber data Google, seperti BigQuery, Spanner, dan Google Drive.

Checklist untuk sumber data Google

Sebelum mengirim data ke Gemini Enterprise, periksa daftar berikut:

Siapkan kontrol akses untuk sumber data Anda. Untuk mengetahui informasi selengkapnya, lihat, Identitas dan izin.
Tentukan apakah data harus digabungkan atau diserap (diindeks).
Tentukan seberapa sering data harus disinkronkan.
Jika Anda menggunakan kunci enkripsi yang dikelola pelanggan (CMEK), buat kunci multi-region. Untuk mengetahui informasi selengkapnya, lihat Mendaftarkan kunci satu region untuk sumber data pihak ketiga.
Jika Anda memiliki informasi identitas pribadi (PII) dan ingin menggunakan pelengkapan otomatis untuk saran kueri, lihat melindungi dari kebocoran PII.

Sumber data Google yang didukung

Google Drive	Gmail	Google Kalender	Penelusuran orang

Sumber data pihak ketiga

Penyimpanan data pihak ketiga menyerap data aplikasi pihak ketiga ke dalam Gemini Enterprise.

Daftar periksa untuk sumber data pihak ketiga

Sebelum menghubungkan sumber data pihak ketiga ke Gemini Enterprise, tinjau checklist berikut:

Cakupan dan izin tertentu harus dikonfigurasi untuk sumber data tertentu. Administrator aplikasi pihak ketiga harus meninjau kredensial yang diperlukan untuk menghubungkan sumber data serta menyiapkan autentikasi dan izin. Untuk mengetahui informasi tentang cakupan dan izin tertentu, lihat dokumentasi sumber data pihak ketiga yang relevan.
Siapkan kontrol akses untuk penyimpanan data Anda. Untuk mengetahui informasi selengkapnya, lihat Identitas dan izin
Tentukan apakah data harus digabungkan atau diserap (diindeks).
Jika data dimasukkan, pastikan resource tidak dibatasi untuk kredensial pengguna yang Anda gunakan untuk memasukkan data ke sumber data.
Tentukan seberapa sering data harus disinkronkan.
Jika Anda menggunakan kunci enkripsi yang dikelola pelanggan (CMEK), buat kunci multi-region dan satu region. Untuk mengetahui informasi selengkapnya, lihat Mendaftarkan kunci satu region untuk penyimpanan data pihak ketiga.
Jika Anda memiliki informasi identitas pribadi (PII) dan ingin menggunakan pelengkapan otomatis untuk saran kueri, lihat melindungi dari kebocoran PII.

Sumber data pihak ketiga yang didukung

Microsoft Entra ID	Microsoft OneDrive	Microsoft Outlook	Microsoft SharePoint

Jira Cloud	Confluence Cloud	ServiceNow