Langkah 3: Tentukan mekanisme integrasi

Halaman ini menjelaskan langkah ketiga untuk men-deploy Cortex Framework Data Foundation, inti dari Cortex Framework. Pada langkah ini, Anda akan mengonfigurasi integrasi dengan sumber data yang dipilih. Jika Anda menggunakan data contoh, lewati langkah ini.

Ringkasan Integrasi

Cortex Framework membantu Anda memusatkan data dari berbagai sumber, beserta platform lainnya. Tindakan ini akan membuat satu sumber tepercaya untuk data Anda. Cortex Data Foundation terintegrasi dengan setiap sumber data dengan cara yang berbeda, tetapi sebagian besar mengikuti prosedur yang serupa:

  • Lapisan Sumber ke Mentah: Mengambil data dari sumber data ke set data mentah menggunakan API. Hal ini dicapai dengan menggunakan pipeline Dataflow yang dipicu melalui DAG Cloud Composer.
  • Lapisan mentah ke lapisan CDC: Terapkan pemrosesan CDC pada set data mentah dan simpan output dalam set data CDC. Hal ini dilakukan oleh DAG Cloud Composer yang menjalankan SQL BigQuery.
  • Lapisan CDC ke lapisan Pelaporan: Membuat tabel pelaporan akhir dari tabel CDC dalam set data Pelaporan. Hal ini dilakukan dengan membuat tampilan runtime di atas tabel CDC atau menjalankan DAG Cloud Composer untuk data yang terwujud di tabel BigQuery, bergantung pada konfigurasinya. Untuk informasi selengkapnya tentang konfigurasi, lihat Menyesuaikan file setelan pelaporan.

File config.json mengonfigurasi setelan yang diperlukan untuk terhubung ke sumber data untuk mentransfer data dari berbagai beban kerja. Lihat opsi integrasi untuk setiap sumber data di referensi berikut.

Untuk informasi selengkapnya tentang Diagram Hubungan Entitas yang didukung setiap sumber data, lihat folder docs di repositori Data Foundation Framework Cortex.

Deployment K9

Penyebar K9 menyederhanakan integrasi berbagai sumber data. Deployer K9 adalah set data yang telah ditentukan dalam lingkungan BigQuery yang bertanggung jawab untuk menyerap, memproses, dan membuat model komponen yang dapat digunakan kembali di berbagai sumber data.

Misalnya, dimensi time dapat digunakan kembali di semua sumber data tempat tabel mungkin perlu mengambil hasil analisis berdasarkan kalender Gregorian. Deployer K9 menggabungkan data eksternal seperti cuaca atau Google Trends dengan sumber data lainnya (misalnya, SAP, Salesforce, Marketing). Set data yang diperkaya ini memungkinkan insight yang lebih mendalam dan analisis yang lebih komprehensif.

Diagram berikut menunjukkan alur data dari berbagai sumber mentah ke berbagai lapisan pelaporan:

Set data K9

Gambar 1. K9.

Dalam diagram, project sumber berisi data mentah dari sumber data yang dipilih (SAP, Salesforce, dan Pemasaran). Sementara project target berisi data yang diproses, yang berasal dari proses Pengambilan Data Perubahan (CDC).

Langkah pra-pemrosesan K9 berjalan sebelum semua beban kerja memulai deployment-nya, sehingga model yang dapat digunakan kembali tersedia selama deployment. Langkah ini mengubah data dari berbagai sumber untuk membuat set data yang konsisten dan dapat digunakan kembali.

Langkah-langkah K9 pascapemrosesan terjadi setelah semua beban kerja men-deploy model pelaporan untuk mengaktifkan pelaporan lintas beban kerja atau meningkatkan model untuk menemukan dependensi yang diperlukan dalam setiap set data pelaporan.

Mengonfigurasi deployment K9

Konfigurasikan Directed Acyclic Graph (DAG) dan model yang akan dihasilkan dalam file konfigurasi K9.

Langkah prapemrosesan K9 penting karena memastikan bahwa semua beban kerja dalam pipeline data memiliki akses ke data yang disiapkan secara konsisten. Hal ini mengurangi redundansi dan memastikan konsistensi data.

Untuk informasi selengkapnya tentang cara mengonfigurasi set data eksternal untuk K9, lihat Mengonfigurasi set data eksternal untuk K9.

Langkah berikutnya

Setelah Anda menyelesaikan langkah ini, lanjutkan ke langkah-langkah deployment berikut:

  1. Menetapkan beban kerja.
  2. Clone repositori.
  3. Menentukan mekanisme integrasi (halaman ini).
  4. Menyiapkan komponen.
  5. Konfigurasi deployment.
  6. Jalankan deployment.