Langkah 5: Konfigurasikan deployment
Halaman ini menjelaskan langkah kelima untuk men-deploy Cortex Framework Data Foundation, inti dari Cortex Framework. Pada langkah ini, Anda akan mengubah file konfigurasi di repositori Data Foundation Framework Cortex agar sesuai dengan persyaratan Anda.
File konfigurasi
Perilaku deployment dikontrol oleh file konfigurasi config.json
di Cortex Framework Data Foundation. File ini berisi konfigurasi global, konfigurasi khusus untuk setiap beban kerja.
Edit file config.json
sesuai kebutuhan Anda dengan langkah-langkah berikut:
- Buka file
config.json
dari Cloud Shell. Edit file
config.json
sesuai dengan parameter berikut:Parameter Arti Nilai Default Deskripsi testData
Men-deploy Data Pengujian. true
Project tempat set data sumber berada dan build berjalan. Catatan: Deployment data pengujian hanya akan dieksekusi jika set data mentah kosong dan tidak memiliki tabel. deploySAP
Men-deploy SAP true
Jalankan deployment untuk workload SAP (ECC atau S/4 HANA). deploySFDC
Men-deploy Salesforce true
Jalankan deployment untuk workload Salesforce. deployMarketing
Deploy Marketing true
Jalankan deployment untuk Sumber pemasaran (Google Ads, CM360, dan TikTok). deployOracleEBS
Men-deploy Oracle EBS true
Jalankan deployment untuk workload Oracle EBS. deployDataMesh
Men-deploy Mesh Data true
Jalankan deployment untuk Data Mesh. Untuk informasi selengkapnya, lihat Panduan Pengguna Data Mesh. turboMode
Deploy dalam mode Turbo. true
Jalankan semua build tampilan sebagai langkah dalam proses Cloud Build yang sama, secara paralel untuk deployment yang lebih cepat. Jika ditetapkan ke false
, setiap tampilan pelaporan akan dibuat dalam langkah build berurutan. Sebaiknya tetapkan saja ketrue
saat menggunakan data pengujian atau setelah ketidakcocokan antara kolom pelaporan dan data sumber diselesaikan.projectIdSource
Project ID Sumber - Project tempat set data sumber berada dan build berjalan. projectIdTarget
Project ID Target - Project target untuk set data yang ditampilkan kepada pengguna (set data pelaporan dan ML). targetBucket
Bucket Target untuk menyimpan skrip DAG yang dihasilkan - Bucket yang dibuat sebelumnya tempat DAG (dan file sementara Dataflow) dibuat. Hindari penggunaan bucket Airflow yang sebenarnya. location
Lokasi atau Wilayah "US"
Lokasi tempat set data BigQuery dan bucket Cloud Storage berada. Lihat batasan yang tercantum di bagian Lokasi set data BigQuery.
testDataProject
Sumber untuk harness pengujian kittycorn-public
Sumber data pengujian untuk deployment demo. Berlaku saat testData
adalahtrue
.Jangan ubah nilai ini, kecuali jika Anda memiliki harness pengujian sendiri.
k9.datasets.processing
Set data K9 - Pemrosesan "K9_PROCESSING"
Jalankan template lintas beban kerja (misalnya, dimensi tanggal) seperti yang ditentukan dalam file konfigurasi K9. Template ini biasanya diperlukan oleh workload downstream. k9.datasets.reporting
Set data K9 - Pelaporan "K9_REPORTING"
Jalankan template lintas beban kerja dan sumber data eksternal (misalnya: cuaca) seperti yang ditentukan dalam file konfigurasi K9. Dikomentari secara default. DataMesh.deployDescriptions
Data Mesh - Deskripsi aset true
Men-deploy deskripsi skema aset BigQuery. DataMesh.deployLakes
Data Mesh - Danau & Zona false
Men-deploy Dataplex Lakes dan Zona yang mengatur tabel menurut lapisan pemrosesan, memerlukan konfigurasi sebelum diaktifkan. DataMesh.deployCatalog
Data Mesh - Template dan Tag Katalog false
Men-deploy Tag Data Catalog yang memungkinkan metadata kustom di aset atau kolom BigQuery, memerlukan konfigurasi sebelum diaktifkan. DataMesh.deployACLs
Data Mesh - Kontrol Akses false
Men-deploy kontrol akses tingkat aset, baris, atau kolom di aset BigQuery, memerlukan konfigurasi sebelum diaktifkan. Konfigurasikan beban kerja yang diperlukan sesuai kebutuhan. Anda tidak perlu mengonfigurasinya jika parameter deployment (misalnya,
deploySAP
ataudeployMarketing
) untuk workload ditetapkan keFalse
. Untuk informasi selengkapnya, lihat Langkah 3: Tentukan mekanisme integrasi.
Untuk penyesuaian deployment yang lebih baik, lihat langkah opsional berikut:
- Memilih Tidak Mengikuti Telemetri.
- Konfigurasi set data eksternal untuk K9.
- Periksa tag
CORTEX-CUSTOMER
.
Pengoptimalan performa untuk tampilan pelaporan
Artefak pelaporan dapat dibuat sebagai tampilan atau sebagai tabel yang diperbarui secara berkala melalui DAG. Di satu sisi, tampilan menghitung data pada setiap eksekusi kueri, yang membuat hasil selalu baru. Di sisi lain, tabel menjalankan komputasi satu kali, dan hasilnya dapat dikueri beberapa kali tanpa menimbulkan biaya komputasi yang lebih tinggi dan mencapai runtime yang lebih cepat. Setiap pelanggan membuat konfigurasi sendiri sesuai dengan kebutuhan mereka.
Hasil yang diwujudkan diperbarui ke dalam tabel. Tabel ini dapat dioptimalkan lebih lanjut dengan menambahkan Partisi dan Pengelompokan ke tabel ini.
File konfigurasi untuk setiap beban kerja terletak di jalur berikut dalam repositori Cortex Framework Data Foundation:
Sumber Data | File setelan |
Operasional - SAP | src/SAP/SAP_REPORTING/reporting_settings_ecc.yaml
|
Operasional - Salesforce Sales Cloud | src/SFDC/config/reporting_settings.yaml
|
Operasional - Oracle EBS | src/oracleEBS/config/reporting_settings.yaml
|
Pemasaran - Google Ads | src/marketing/src/GoogleAds/config/reporting_settings.yaml
|
Pemasaran - CM360 | src/marketing/src/CM360/config/reporting_settings.yaml
|
Pemasaran - Meta | src/marketing/src/Meta/config/reporting_settings.yaml
|
Pemasaran - Salesforce Marketing Cloud | src/marketing/src/SFMC/config/reporting_settings.yaml
|
Pemasaran - TikTok | src/marketing/src/TikTok/config/reporting_settings.yaml
|
Pemasaran - YouTube (dengan DV360) | src/marketing/src/DV360/config/reporting_settings.yaml
|
Pemasaran - Google Analytics 4 | src/marketing/src/GA4/config/reporting_settings.yaml
|
Pemasaran - Insight Terhubung Produk & Lintas Media | src/marketing/src/CrossMedia/config/reporting_settings.yaml
|
Menyesuaikan file setelan pelaporan
File reporting_settings
mendorong cara objek BigQuery
(tabel atau tampilan) dibuat untuk melaporkan set data. Sesuaikan file Anda dengan
deskripsi parameter berikut. Pertimbangkan bahwa file ini berisi dua bagian:
bq_independent_objects
: Semua objek BigQuery yang dapat dibuat secara independen, tanpa dependensi lainnya. JikaTurbo mode
diaktifkan, objek BigQuery ini akan dibuat secara paralel selama waktu deployment, sehingga mempercepat proses deployment.bq_dependent_objects
: Semua objek BigQuery yang perlu dibuat dalam urutan tertentu karena dependensi pada objek BigQuery lainnya.Turbo mode
tidak berlaku untuk bagian ini.
Deployer pertama-tama membuat semua objek BigQuery yang tercantum di bq_independent_objects
, lalu semua objek yang tercantum di bq_dependent_objects
. Tentukan properti berikut untuk setiap objek:
sql_file
: Nama file SQL yang membuat objek tertentu.type
: Jenis objek BigQuery. Nilai yang mungkin:view
: Jika Anda ingin objek menjadi tampilan BigQuery.table
: Jika Anda ingin objek tersebut menjadi tabel BigQuery.script
: Hal ini untuk membuat jenis objek lainnya (misalnya, fungsi BigQuery dan proses tersimpan).
- Jika
type
ditetapkan ketable
, properti opsional berikut dapat ditentukan:load_frequency
: Frekuensi DAG Composer dijalankan untuk memuat ulang tabel ini. Lihat dokumentasi Airflow untuk mengetahui detail tentang kemungkinan nilai.partition_details
: Cara tabel harus dipartisi. Nilai ini bersifat opsional. Untuk mengetahui informasi selengkapnya, lihat bagian Partisi tabel.cluster_details
: Cara tabel harus dikelompokkan. Nilai ini bersifat opsional. Untuk mengetahui informasi selengkapnya, lihat bagian Setelan cluster.
Partisi tabel
File setelan tertentu memungkinkan Anda mengonfigurasi tabel yang diwujudkan dengan opsi pengelompokan dan partisi kustom. Hal ini dapat meningkatkan performa kueri secara signifikan untuk set data besar. Opsi ini hanya berlaku untuk SAP cdc_settings.yaml
dan semua file reporting_settings.yaml
.
Partisi Tabel dapat diaktifkan dengan menentukan partition_details
berikut:
- base_table: vbap
load_frequency: "@daily"
partition_details: {
column: "erdat", partition_type: "time", time_grain: "day" }
Gunakan parameter berikut untuk mengontrol detail partisi untuk tabel tertentu:
Properti | Deskripsi | Nilai |
column
|
Kolom yang digunakan untuk mempartisi tabel CDC. | Nama kolom. |
partition_type
|
Jenis partisi. | "time" untuk partisi berbasis waktu. Untuk mengetahui informasi selengkapnya, lihat Tabel berpartisi stempel waktu.
"integer_range" untuk partisi berbasis bilangan bulat. Untuk informasi selengkapnya, lihat Dokumentasi rentang bilangan bulat.
|
time_grain
|
Bagian waktu untuk membuat partisi dengan
Wajib ada saat partition_type = "time" .
|
"hour" , "day" , "month" , atau "year" .
|
integer_range_bucket
|
Rentang bucket
Wajib diisi jika partition_type = "integer_range"
|
"start" = Nilai awal,
"end" = Nilai akhir, dan "interval " = Interval rentang.
|
Untuk mengetahui informasi selengkapnya tentang opsi dan batasan terkait, lihat Partisi Tabel BigQuery.
Setelan cluster
Pengelompokan tabel dapat diaktifkan dengan menentukan cluster_details
:
- base_table: vbak
load_frequency: "@daily"
cluster_details: {columns: ["vkorg"]}
Gunakan parameter berikut untuk mengontrol detail cluster untuk tabel tertentu:
Properti | Deskripsi | Nilai |
columns
|
Kolom yang digunakan untuk mengelompokkan tabel. | Daftar nama kolom. Misalnya,
"mjahr" dan "matnr" .
|
Untuk mengetahui informasi selengkapnya tentang opsi dan batasan terkait, lihat Dokumentasi cluster tabel.
Langkah berikutnya
Setelah Anda menyelesaikan langkah ini, lanjutkan ke langkah deployment berikut:
- Menetapkan beban kerja.
- Clone repositori.
- Menentukan mekanisme integrasi.
- Menyiapkan komponen.
- Mengonfigurasi deployment (halaman ini).
- Jalankan deployment.