Langkah 1: Tetapkan beban kerja
Halaman ini memandu Anda melalui langkah awal penyiapan fondasi data, inti dari Cortex Framework. Dibuat di atas penyimpanan BigQuery, fondasi data mengatur data masuk Anda dari berbagai sumber. Data yang terorganisir ini memudahkan analisis dan penggunaan untuk pengembangan AI.
Menyiapkan integrasi data
Mulailah dengan menentukan beberapa parameter utama untuk bertindak sebagai cetak biru untuk mengatur dan menggunakan data Anda secara efisien dalam Cortex Framework. Ingat, parameter ini dapat bervariasi bergantung pada workload tertentu, aliran data yang Anda pilih, dan mekanisme integrasi. Diagram berikut memberikan ringkasan integrasi data dalam Fondasi Data Cortex Framework:
Tentukan parameter berikut sebelum deployment untuk penggunaan data yang efisien dan efektif dalam Framework Cortex.
Project
- Project sumber: Project tempat data mentah Anda berada. Anda memerlukan setidaknya satu project Google Cloud untuk menyimpan data dan menjalankan proses deployment.
- Project target (opsional): Project tempat Cortex Framework Data Foundation menyimpan model data yang diproses. Project ini dapat sama dengan project sumber, atau berbeda, bergantung pada kebutuhan Anda.
Jika Anda ingin memiliki kumpulan project dan set data terpisah untuk setiap beban kerja (misalnya, satu kumpulan project sumber dan target untuk SAP dan kumpulan project target dan sumber yang berbeda untuk Salesforce), jalankan deployment terpisah untuk setiap beban kerja. Untuk informasi selengkapnya, lihat Menggunakan project yang berbeda untuk memisahkan akses di bagian langkah opsional.
Model data
- Deploy Models: Pilih apakah Anda perlu men-deploy model untuk semua beban kerja atau hanya satu kumpulan model (misalnya, SAP, Salesforce, dan Meta). Untuk mengetahui informasi selengkapnya, lihat Sumber data dan beban kerja yang tersedia.
Set data BigQuery
- Set Data Sumber (Mentah): Set data BigQuery tempat data sumber direplikasi atau tempat data pengujian dibuat. Sebaiknya buat set data terpisah, satu untuk setiap sumber data. Misalnya, satu set data mentah untuk SAP dan satu set data mentah untuk Google Ads. Set data ini adalah milik project sumber.
- Set Data CDC: Set data BigQuery tempat data yang diproses CDC akan menyimpan data terbaru yang tersedia. Beberapa workload memungkinkan pemetaan nama kolom. Rekomendasinya adalah memiliki set data CDC terpisah untuk setiap sumber. Misalnya, satu set data CDC untuk SAP, dan satu set data CDC untuk Salesforce. Set data ini adalah milik project sumber.
- Set Data Pelaporan Target: Set data BigQuery tempat model data standar Data Foundation di-deploy. Sebaiknya buat set data pelaporan terpisah untuk setiap sumber. Misalnya, satu set data pelaporan untuk SAP dan satu set data pelaporan untuk Salesforce. Set data ini akan otomatis dibuat selama deployment jika belum ada. Set data ini milik project Target.
- Prapemrosesan Set Data K9: Set data BigQuery tempat
komponen DAG lintas beban kerja yang dapat digunakan kembali, seperti dimensi
time
, dapat di-deploy. Beban kerja memiliki dependensi pada set data ini kecuali jika diubah. Set data ini dibuat secara otomatis selama deployment jika belum ada. Set data ini adalah milik project sumber. - Set Data K9 Pascapemrosesan: Set data BigQuery tempat pelaporan lintas beban kerja, dan DAG sumber eksternal tambahan (misalnya, penyerapan Google Trends) dapat di-deploy. Set data ini dibuat secara otomatis selama deployment jika belum ada. Set data ini termasuk dalam project Target.
Opsional: Membuat data sampel
Cortex Framework dapat membuat contoh data dan tabel untuk Anda jika Anda tidak memiliki akses ke data Anda sendiri, atau alat replikasi untuk menyiapkan data, atau bahkan jika Anda hanya ingin melihat cara kerja Cortex Framework. Namun, Anda tetap perlu membuat dan mengidentifikasi set data CDC dan Raw terlebih dahulu.
Buat set data BigQuery untuk data mentah dan CDC per sumber data, dengan petunjuk berikut.
Konsol
Buka halaman BigQuery di konsol Google Cloud.
Di panel Explorer, pilih project tempat Anda ingin membuat set data.
Luaskan opsi
Actions, lalu klik Create dataset:Di halaman Create dataset:
- Untuk Dataset ID, masukkan nama set data yang unik.
Untuk Location type, pilih lokasi geografis untuk set data. Setelah set data dibuat, lokasi tidak dapat diubah.
Opsional. Untuk mengetahui detail penyesuaian selengkapnya untuk set data Anda, lihat Membuat set data: Konsol.
Klik Create dataset.
bq
Buat set data baru untuk data mentah dengan menyalin perintah berikut:
bq --location= LOCATION mk -d SOURCE_PROJECT: DATASET_RAW
Ganti kode berikut:
LOCATION
dengan lokasi set data.SOURCE_PROJECT
dengan project ID sumber Anda.DATASET_RAW
dengan nama untuk set data Anda untuk data mentah. Contoh,CORTEX_SFDC_RAW
.
Buat set data baru untuk data CDC dengan menyalin perintah berikut:
bq --location=LOCATION mk -d SOURCE_PROJECT: DATASET_CDC
Ganti kode berikut:
LOCATION
dengan lokasi set data.SOURCE_PROJECT
dengan project ID sumber Anda.DATASET_CDC
dengan nama untuk set data Anda untuk data CDC. Contoh,CORTEX_SFDC_CDC
.
Pastikan set data dibuat dengan perintah berikut:
bq ls
Opsional. Untuk informasi selengkapnya tentang cara membuat set data, lihat Membuat set data.
Langkah berikutnya
Setelah Anda menyelesaikan langkah ini, lanjutkan ke langkah-langkah deployment berikut:
- Menetapkan beban kerja (halaman ini).
- Clone repositori.
- Menentukan mekanisme integrasi.
- Menyiapkan komponen.
- Konfigurasi deployment.
- Jalankan deployment.