配置外部数据集

本页介绍了为 Cortex Framework Data Foundation 部署配置外部数据集的可选步骤。某些高级使用情形可能需要外部数据集来补充企业记录系统。除了从 BigQuery Sharing(以前称为 Analytics Hub)中使用的外部交换之外,某些数据集可能需要自定义或量身定制的方法来注入数据并将其与报告模型联接。

如需启用以下外部数据集,请将 k9.deployDataset 设置为 True(如果您希望部署数据集)。

按照以下步骤为受支持的外部数据集配置有向无环图 (DAG):

  1. 节假日日历:此 DAG 从 PyPi Holidays 中检索特殊日期。

    1. 调整国家/地区列表、年份列表以及其他 DAG 参数,以检索 holiday_calendar.ini 中的节假日。
  2. 趋势:此 DAG 从 Google 搜索趋势中检索一组特定字词的随时间变化的搜索热度。 您可以在 trends.ini 中配置这些条款。

    1. 初次运行后,将 trends.ini 中的 start_date 调整为 'today 7-d'
    2. 熟悉不同搜索字词带来的结果,以便调整参数。
    3. 我们建议将大型列表分区为多个 DAG 副本,这些副本在不同时间运行。
    4. 如需详细了解所使用的底层库,请参阅 Pytrends
  3. 天气:默认情况下,此 DAG 使用公开提供的测试数据集 BigQuery-public-data.geo_openstreetmap.planet_layers。该查询还依赖于只能通过共享访问的 NOAA 数据集:noaa_global_forecast_system

    此数据集需要在执行部署之前在与其他数据集相同的区域中创建。如果您的区域中没有这些数据集,您可以按照以下说明将数据转移到所选区域:

    1. 前往共享 (Analytics Hub) 页面。
    2. 点击搜索商品详情
    3. 搜索 NOAA 全球预报系统
    4. 点击订阅
    5. 当系统提示时,请保留 noaa_global_forecast_system 作为数据集的名称。如果需要,请在 weather_daily.sql 的 FROM 子句中调整数据集和表的名称。
    6. 针对数据集 OpenStreetMap Public Dataset 重复执行商品详情搜索。
    7. 调整 postcode.sql 中包含 BigQuery-public-data.geo_openstreetmap.planet_layersFROM 子句。
  4. 可持续性和 ESG 洞见:Cortex Framework 将 SAP 供应商绩效数据与高级 ESG 洞见相结合,以便更全面地比较全球运营中的交付绩效、可持续性和风险。如需了解详情,请参阅 Dun & Bradstreet 数据源

一般注意事项

  • 共享仅在欧盟和美国位置受支持,并且某些数据集(例如 NOAA 全球预报)仅在单个多位置提供。

    如果您定位到的位置与所需数据集的可用位置不同,建议您创建计划查询,以从共享关联的数据集中复制新记录,然后使用转移服务将这些新记录复制到与部署的其他部分位于同一位置或区域的数据集中。然后,您需要调整 SQL 文件。

  • 在将这些 DAG 复制到 Cloud Composer 之前,请以依赖项的形式添加所需的 Python 模块:

    Required modules:
    pytrends~=4.9.2
    holidays