외부 데이터 세트 구성
이 페이지에서는 Cortex Framework Data Foundation 배포를 위해 외부 데이터 세트를 구성하는 선택적 단계를 설명합니다. 일부 고급 사용 사례에서는 기록의 엔터프라이즈 시스템을 보완하기 위해 외부 데이터 세트가 필요할 수 있습니다. BigQuery 공유 (이전의 Analytics Hub)에서 사용되는 외부 교환 외에도 데이터를 수집하고 보고 모델과 결합하기 위해 맞춤 또는 맞춤형 방법이 필요한 데이터 세트가 있을 수 있습니다.
다음 외부 데이터 세트를 사용 설정하려면 데이터 세트를 배포하려는 경우 k9.deployDataset
를 True
로 설정하세요.
다음 단계에 따라 지원되는 외부 데이터 세트의 방향성 비순환 그래프 (DAG)를 구성합니다.
공휴일 캘린더: 이 DAG는 PyPi Holidays에서 특별한 날짜를 가져옵니다.
holiday_calendar.ini
의 공휴일을 가져오려면 국가 목록, 연도 목록, 기타 DAG 매개변수를 조정합니다.
트렌드: 이 DAG는 Google 검색 트렌드에서 특정 용어 집합의 시간별 관심도를 가져옵니다. 이러한 용어는
trends.ini
에서 구성할 수 있습니다.- 초기 실행 후
trends.ini
에서start_date
를'today 7-d'
로 조정합니다. - 다양한 용어에서 나오는 결과를 숙지하여 매개변수를 조정합니다.
- 서로 다른 시간에 실행되는 이 DAG의 여러 사본으로 큰 목록을 파티셔닝하는 것이 좋습니다.
- 사용되는 기본 라이브러리에 관한 자세한 내용은 Pytrends를 참고하세요.
- 초기 실행 후
날씨: 기본적으로 이 DAG는 공개적으로 사용 가능한 테스트 데이터 세트
BigQuery-public-data.geo_openstreetmap.planet_layers
를 사용합니다. 이 쿼리는 공유를 통해서만 사용할 수 있는 NOAA 데이터 세트(noaa_global_forecast_system
)에도 의존합니다.이 데이터 세트는 배포를 실행하기 전에 다른 데이터 세트와 동일한 리전에 생성해야 합니다. 데이터 세트를 리전에서 사용할 수 없는 경우 다음 안내에 따라 선택한 리전으로 데이터를 전송할 수 있습니다.
- 공유 (Analytics Hub) 페이지로 이동합니다.
- 검색 결과를 클릭합니다.
- NOAA 전 세계 예측 시스템을 검색합니다.
- 구독을 클릭합니다.
- 메시지가 표시되면
noaa_global_forecast_system
를 데이터 세트의 이름으로 유지합니다. 필요한 경우weather_daily.sql
의 FROM 절에서 데이터 세트와 테이블의 이름을 조정합니다. - 데이터 세트
OpenStreetMap Public Dataset
에 대한 등록정보 검색을 반복합니다. postcode.sql
에서BigQuery-public-data.geo_openstreetmap.planet_layers
을 포함하는FROM
절을 조정합니다.
지속 가능성 및 ESG 통계: Cortex Framework는 SAP 공급업체 실적 데이터를 고급 ESG 통계와 결합하여 전 세계 운영 전반에서 배송 실적, 지속 가능성, 위험을 더 전체적으로 비교합니다. 자세한 내용은 Dun & Bradstreet 데이터 소스를 참고하세요.
일반적인 고려사항
공유는 EU 및 미국 위치에서만 지원되며 NOAA Global Forecast와 같은 일부 데이터 세트는 단일 멀티 위치에서만 제공됩니다.
필수 데이터 세트에 사용할 수 있는 위치와 다른 위치를 타겟팅하는 경우 예약된 쿼리를 만들어 공유 링크 데이터 세트에서 새 레코드를 복사한 다음 전송 서비스를 사용하여 해당 새 레코드를 나머지 배포와 동일한 위치 또는 리전에 있는 데이터 세트에 복사하는 것이 좋습니다. 그런 다음 SQL 파일을 조정해야 합니다.
이러한 DAG를 Cloud Composer에 복사하기 전에 필요한 Python 모듈을 종속 항목으로 추가하세요.
Required modules: pytrends~=4.9.2 holidays