Mengonfigurasi set data eksternal

Halaman ini menjelaskan langkah opsional untuk mengonfigurasi set data eksternal untuk deployment Data Foundation Framework Cortex. Beberapa kasus penggunaan lanjutan mungkin memerlukan set data eksternal untuk melengkapi sistem catatan perusahaan. Selain pertukaran eksternal yang digunakan dari Analytics Hub, beberapa set data mungkin memerlukan metode kustom atau yang disesuaikan untuk menyerap data dan menggabungkannya dengan model pelaporan.

Untuk mengaktifkan set data eksternal berikut, tetapkan k9.deployDataset ke True jika Anda ingin Set Data di-deploy.

Konfigurasikan Directed Acyclic Graph (DAG) untuk set data eksternal yang didukung dengan mengikuti langkah-langkah berikut:

  1. Kalender Hari Libur: DAG ini mengambil tanggal khusus dari PyPi Holidays.

    1. Sesuaikan daftar negara, daftar tahun, serta parameter DAG lainnya untuk mengambil hari libur di holiday_calendar.ini.
  2. Tren: DAG ini mengambil Minat dari Waktu ke Waktu untuk kumpulan istilah tertentu dari tren Google Penelusuran. Istilah tersebut dapat dikonfigurasi di trends.ini.

    1. Setelah menjalankan awal, sesuaikan start_date ke 'today 7-d' di trends.ini.
    2. Pelajari hasil yang berasal dari berbagai istilah untuk menyesuaikan parameter.
    3. Sebaiknya partisi daftar besar ke beberapa salinan DAG ini yang berjalan pada waktu yang berbeda.
    4. Untuk informasi selengkapnya tentang library yang digunakan, lihat Pytrends.
  3. Cuaca: Secara default, DAG ini menggunakan set data pengujian BigQuery-public-data.geo_openstreetmap.planet_layers yang tersedia secara publik. Kueri ini juga bergantung pada set data NOAA yang hanya tersedia melalui Analytics Hub: noaa_global_forecast_system.

    Set data ini harus dibuat di region yang sama dengan set data lainnya sebelum menjalankan deployment. Jika set data tidak tersedia di region Anda, Anda dapat melanjutkan dengan petunjuk berikut untuk mentransfer data ke region yang dipilih:

    1. Buka BigQuery Analytics Hub.
    2. Klik Telusuri Listingan.
    3. Telusuri NOAA Global Forecast System.
    4. Klik Tambahkan set data ke project.
    5. Saat diminta, biarkan noaa_global_forecast_system sebagai nama set data. Jika perlu, sesuaikan nama set data dan tabel dalam klausa FROM di weather_daily.sql.
    6. Ulangi penelusuran listingan untuk Set Data OpenStreetMap Public Dataset.
    7. Sesuaikan klausa FROM yang berisi: BigQuery-public-data.geo_openstreetmap.planet_layers di postcode.sql.
  4. Insight keberlanjutan dan ESG: Framework Cortex menggabungkan data performa pemasok SAP dengan insight ESG lanjutan untuk membandingkan performa pengiriman, keberlanjutan, dan risiko secara lebih menyeluruh di seluruh operasi global. Untuk informasi selengkapnya, lihat sumber data Dun & Bradstreet.

Pertimbangan umum

  • Analytics Hub hanya didukung di lokasi Uni Eropa dan Amerika Serikat, dan beberapa set data, seperti NOAA Global Forecast, hanya ditawarkan di satu multi-lokasi.

    Jika Anda menargetkan lokasi yang berbeda dengan lokasi yang tersedia untuk set data yang diperlukan, sebaiknya buat kueri terjadwal untuk menyalin data baru dari set data tertaut Analytics Hub, diikuti dengan layanan transfer untuk menyalin data baru tersebut ke set data yang terletak di lokasi atau wilayah yang sama dengan deployment Anda yang lain. Kemudian, Anda perlu menyesuaikan file SQL.

  • Sebelum menyalin DAG ini ke Cloud Composer, tambahkan modul python yang diperlukan sebagai dependensi:

    Required modules:
    pytrends~=4.9.2
    holidays