配置外部数据集

本页介绍了为 Cortex Framework Data Foundation 部署配置外部数据集的可选步骤。某些高级用例可能需要外部数据集来补充企业记录系统。除了从 Analytics Hub 中提取的外部广告交易平台之外,某些数据集可能需要使用自定义或量身定制的方法来提取数据并将其与报告模型联接。

如需启用以下外部数据集,请将 k9.deployDataset 设置为 True(如果您希望部署数据集)。

请按照以下步骤为受支持的外部数据集配置有向无环图 (DAG):

  1. 节假日日历:此 DAG 会从 PyPi Holidays 检索特殊日期。

    1. 调整国家/地区列表、年份列表以及其他 DAG 参数,以在 holiday_calendar.ini 中检索节假日。
  2. 趋势:此 DAG 会从 Google 搜索趋势中检索特定一组字词的热度随时间变化情况。您可以在 trends.ini 中配置这些字词。

    1. 初次运行后,在 trends.ini 中将 start_date 调整为 'today 7-d'
    2. 熟悉不同字词带来的结果,以便调优参数。
    3. 我们建议将大型列表划分为多个在不同时间运行的 DAG 副本。
    4. 如需详细了解所使用的底层库,请参阅 Pytrends
  3. 天气:默认情况下,此 DAG 使用公开测试数据集 BigQuery-public-data.geo_openstreetmap.planet_layers。该查询还依赖于仅通过 Analytics Hub 提供的 NOAA 数据集:noaa_global_forecast_system

    此数据集需要在其他数据集所在的区域中创建,然后才能执行部署。如果您所在的区域不提供这些数据集,可以继续按照以下说明将数据转移到所选区域:

    1. 前往 BigQuery Analytics Hub
    2. 点击搜索商家信息
    3. 搜索 NOAA 全球预报系统
    4. 点击将数据集添加到项目中
    5. 出现提示时,将 noaa_global_forecast_system 保留为数据集的名称。如有必要,请调整 weather_daily.sql 中 FROM 子句中的数据集和表的名称。
    6. 重复搜索数据集 OpenStreetMap Public Dataset 的列表。
    7. 调整包含以下内容的 FROM 子句:postcode.sql 中的 BigQuery-public-data.geo_openstreetmap.planet_layers
  4. 可持续发展和 ESG 数据分析:Cortex Framework 将 SAP 供应商绩效数据与高级 ESG 数据分析相结合,以更全面地比较全球运营中的交付绩效、可持续发展能力和风险。如需了解详情,请参阅 Dun & Bradstreet 数据源

一般注意事项

  • Analytics Hub 仅在欧盟和美国的位置受支持,并且某些数据集(例如 NOAA 全球预报)仅在单个多区域位置提供。

    如果您定位的位置与所需数据集可用的地理位置不同,我们建议您创建定期查询,以从 Analytics Hub 关联的数据集中复制新记录,然后使用传输服务将这些新记录复制到与部署的其余部分位于同一位置或区域的数据集。然后,您需要调整 SQL 文件。

  • 在将这些 DAG 复制到 Cloud Composer 之前,请将所需的 Python 模块添加为依赖项

    Required modules:
    pytrends~=4.9.2
    holidays