Configura conjuntos de datos externos

En esta página, se describe un paso opcional para configurar conjuntos de datos externos para la implementación de Data Foundation de Cortex Framework. Es posible que algunos casos de uso avanzados requieran conjuntos de datos externos para complementar un sistema de registro empresarial. Además de los intercambios externos que se consumen desde Analytics Hub, algunos conjuntos de datos pueden necesitar métodos personalizados o adaptados para transferir datos y unirlos con los modelos de informes.

Para habilitar los siguientes conjuntos de datos externos, establece k9.deployDataset en True si deseas que se implemente el conjunto de datos.

Sigue estos pasos para configurar los grafos acíclicos dirigidos (DAG) de los conjuntos de datos externos compatibles:

  1. Calendario de feriados: Este DAG recupera las fechas especiales de PyPi Holidays.

    1. Ajusta la lista de países, la lista de años y otros parámetros de DAG para recuperar los feriados en holiday_calendar.ini.
  2. Tendencias: Este DAG recupera el interés a lo largo del tiempo para un conjunto específico de términos de las tendencias de la Búsqueda de Google. Los términos se pueden configurar en trends.ini.

    1. Después de una ejecución inicial, ajusta start_date a 'today 7-d' en trends.ini.
    2. Familiarízate con los resultados que provienen de los diferentes términos para ajustar los parámetros.
    3. Recomendamos particionar listas grandes en varias copias de este DAG que se ejecuten en diferentes momentos.
    4. Para obtener más información sobre la biblioteca subyacente que se usa, consulta Pytrends.
  3. Clima: De forma predeterminada, este DAG usa el conjunto de datos de prueba BigQuery-public-data.geo_openstreetmap.planet_layers disponible de forma pública. La consulta también se basa en un conjunto de datos de la NOAA que solo está disponible a través de Analytics Hub: noaa_global_forecast_system.

    Este conjunto de datos debe crearse en la misma región que los otros conjuntos de datos antes de ejecutar la implementación. Si los conjuntos de datos no están disponibles en tu región, puedes continuar con las siguientes instrucciones para transferir los datos a la región elegida:

    1. Ve a BigQuery Analytics Hub.
    2. Haz clic en Buscar fichas.
    3. Busca el Sistema de pronóstico global de la NOAA.
    4. Haz clic en Agregar conjunto de datos al proyecto.
    5. Cuando se te solicite, mantén noaa_global_forecast_system como el nombre del conjunto de datos. Si es necesario, ajusta el nombre del conjunto de datos y la tabla en las cláusulas FROM de weather_daily.sql.
    6. Repite la búsqueda de la ficha para el conjunto de datos OpenStreetMap Public Dataset.
    7. Ajusta las cláusulas FROM que contienen lo siguiente: BigQuery-public-data.geo_openstreetmap.planet_layers en postcode.sql.
  4. Estadísticas de sostenibilidad y ESG: El Framework de Cortex combina los datos de rendimiento de los proveedores de SAP con estadísticas avanzadas de ESG para comparar el rendimiento de la entrega, la sostenibilidad y los riesgos de forma más integral en las operaciones globales. Para obtener más información, consulta la fuente de datos de Dun & Bradstreet.

Consideraciones generales

  • Analytics Hub solo es compatible con ubicaciones de la UE y EE.UU., y algunos conjuntos de datos, como el pronóstico global de la NOAA, solo se ofrecen en una sola ubicación multirregional.

    Si segmentas tus anuncios para una ubicación diferente a la disponible para el conjunto de datos requerido, te recomendamos que crees una búsqueda programada para copiar los registros nuevos del conjunto de datos vinculado de Analytics Hub, seguido de un servicio de transferencia para copiar esos registros nuevos en un conjunto de datos ubicado en la misma ubicación o región que el resto de tu implementación. Luego, debes ajustar los archivos SQL.

  • Antes de copiar estos DAG a Cloud Composer, agrega los módulos de Python necesarios como dependencias:

    Required modules:
    pytrends~=4.9.2
    holidays