BigQuery ML을 사용한 SAP의 비즈니스 통계

이 문서에서는 ABAP SDK for Google Cloud의 온프레미스 또는 모든 클라우드 버전을 사용하여 SAP 환경에서 BigQuery ML을 통해 머신러닝 솔루션을 빌드하기 위한 참조 아키텍처를 설명합니다. 이 문서에 설명된 참조 아키텍처를 사용하면 SAP 내에서 비즈니스 의사 결정 프로세스를 가속화하기 위해 데이터 기반 통계를 추출하는 솔루션을 빌드할 수 있습니다.

이 문서의 주요 대상에는 ABAP 개발자, SAP 솔루션 설계자, 클라우드 설계자가 포함됩니다. 이 문서에서는 사용자가 BigQuery 및 SQL에 익숙하다고 가정합니다.

아키텍처

다음 다이어그램은 SAP ERP 시스템의 데이터를 기반으로 비즈니스 통계를 제공하는 머신러닝 솔루션의 참조 아키텍처를 보여줍니다.

SAP의 비즈니스 통계를 위한 머신러닝 솔루션

이 머신러닝 솔루션 아키텍처에는 다음 구성요소가 포함됩니다.

구성요소 하위 시스템 세부정보
1 데이터 소스 엔터프라이즈 데이터의 소스인 SAP S/4HANA와 같은 SAP ERP 시스템입니다.
2 데이터 웨어하우스 소스 시스템의 원시 데이터와 ML로 생성된 통계를 저장하는 BigQuery입니다.
3 머신러닝: 학습 소스 데이터를 기반으로 학습하여 비즈니스 통계를 생성하는 머신러닝 모델입니다.
4 머신러닝: 통계 제공 SAP에 사용할 수 있도록 ML 생성 비즈니스 통계를 반환하는 구성요소입니다.

사용 제품

이 참조 아키텍처에는 다음과 같은 Google Cloud 제품이 사용됩니다.

  • ABAP SDK for Google Cloud: SAP 시스템을 BigQuery와 같은 Google Cloud 서비스에 연결하는 ABAP 애플리케이션을 개발하는 데 도움이 됩니다.
  • BigQuery: 엔터프라이즈 데이터를 관리하고 분석하는 데 도움이 됩니다.

사용 사례

BigQuery ML을 사용하면 SAP 사용자가 BigQuery에 저장된 기업 데이터를 사용하여 의사결정 및 비즈니스 성과를 개선하기 위한 유용한 통계를 얻을 수 있습니다. 이 섹션에서는 BigQuery ML을 사용하여 머신러닝 솔루션을 빌드할 수 있는 사용 사례의 예를 제공합니다.

예측

BigQuery ML의 예측에는 과거 시계열 데이터를 분석하여 향후 동향을 예측하는 작업이 포함됩니다. 예를 들어 여러 매장 위치의 과거 판매 데이터를 분석하여 해당 위치의 향후 판매를 예측할 수 있습니다. ARIMA_PLUS 또는 ARIMA_PLUS_XREG 모델과 함께 ML.FORECAST 함수를 사용하여 예측을 수행할 수 있습니다.

이상 감지

이상 감지는 데이터에서 비정상적인 패턴을 찾아 잠재적인 문제나 기회에 사전에 대응할 수 있도록 합니다. 라벨이 지정된 데이터를 사용하면 이 작업에 다양한 지도 머신러닝 모델을 활용할 수 있습니다. 이상 감지를 위해 선형 및 로지스틱 회귀, 부스티드 트리, 랜덤 포레스트, 심층신경망, 와이드 앤 딥 모델 또는 AutoML 모델을 사용할 수 있습니다.

추천 시스템

추천 시스템은 사용자가 방대한 컬렉션에서 관련성 높은 콘텐츠를 찾는 데 도움이 되는 비즈니스용 강력한 도구입니다. 이러한 시스템은 머신러닝을 사용하여 사용자가 직접 찾을 수 없는 항목을 제안하여 검색의 한계를 극복합니다. 추천 시스템은 주로 다음 두 가지 접근 방식을 사용합니다.

설계 고려사항

이 섹션에서는 이 참조 아키텍처를 사용하여 보안, 개인 정보 보호, 규정 준수, 비용, 성능에 대한 특정 요구사항을 충족하는 아키텍처를 개발하는 데 도움이 되는 안내를 제공합니다.

보안, 개인정보 보호, 규정 준수

데이터 거버넌스 정책을 구현하려면 BigQuery 기능을 사용하면 됩니다. 데이터 거버넌스는 데이터 수명 주기 전반에 걸쳐 데이터 보안과 품질을 관리하여 액세스 및 정확성이 정책과 규정을 준수하도록 보장합니다. 자세한 내용은BigQuery의 데이터 거버넌스 소개를 참조하세요.

비용 및 성능

BigQuery를 사용한 데이터 웨어하우스 솔루션이 사용하는 Google Cloud 리소스의 예상 비용은 Google Cloud 가격 계산기에서 미리 계산된 예상 비용을 참조하세요.

BigQuery를 사용하여 확장을 시작할 때는 다양한 방법을 통해 쿼리 성능을 개선하고 총 지출을 줄일 수 있습니다. 이러한 방법에는 데이터가 물리적으로 저장되는 방법을 변경하거나, SQL 쿼리를 수정하거나, 슬롯 예약을 사용해서 비용 성능을 보장하는 방법 등이 있습니다. 데이터 웨어하우스 확장 및 실행에 유용한 방법에 대한 자세한 내용은 쿼리 성능 최적화 소개를 참조하세요.

설계 대안

이 문서에서는 ABAP SDK for Google Cloud의 온프레미스 또는 모든 클라우드 버전에 중점을 두고 있지만 ABAP SDK for Google Cloud의 SAP BTP 버전을 사용하여 유사한 결과를 얻을 수 있습니다. 제공된 리소스를 조정하여 SAP BTP 환경 내에서 유사한 솔루션을 빌드할 수 있습니다.

배포

이 섹션에서는 소스 SAP 시스템에서 BigQuery로 데이터를 로드하고, 비즈니스 요구사항에 적합한 머신러닝 모델을 만들고, 마지막으로 SAP에서 비즈니스 결정에 사용할 수 있는 통계를 생성하는 방법을 보여줍니다.

시작하기 전에

이 참조 아키텍처를 기반으로 솔루션을 구현하기 전에 다음 기본 요건을 완료했는지 확인하세요.

SAP 소스 시스템에서 BigQuery로 데이터 로드

ABAP SDK for Google Cloud를 사용하여 SAP 소스 시스템에서 BigQuery 테이블로 데이터를 로드하려면 /GOOG/CL_BIGQUERY_V2 클래스의 INSERT_ALL_TABLEDATA 메서드를 사용합니다. 이 데이터는 머신러닝 모델 학습의 기반이 됩니다.

다음 코드 샘플은 SAP 소스 시스템에서 BigQuery 테이블로 데이터를 로드하는 방법을 보여줍니다.

TRY.
    DATA(lo_client) = NEW /goog/cl_bigquery_v2( iv_key_name = 'CLIENT_KEY' ).

    TYPES:
      BEGIN OF t_timeseries,
        date  TYPE string,   "YYYY-MM-DD
        value TYPE string,   "Numeric value
      END OF t_timeseries.

    DATA: lt_data TYPE STANDARD TABLE OF t_timeseries.
    "Developer TODO - populate lt_data

    DATA: ls_input        TYPE /goog/cl_bigquery_v2=>ty_133.

    LOOP AT lt_data INTO FIELD-SYMBOL(<ls_data>).
      APPEND INITIAL LINE TO ls_input-rows ASSIGNING FIELD-SYMBOL(<ls_row>).
      CREATE DATA <ls_row>-json TYPE t_timeseries.
      FIELD-SYMBOLS: <lfs_json> TYPE t_timeseries.
      ASSIGN <ls_row>-json->* TO <lfs_json> CASTING.
      <lfs_json> = <ls_data>.
    ENDLOOP.

    "Call API method: bigquery.tabledata.insertAll
    CALL METHOD lo_client->insert_all_tabledata
      EXPORTING
        iv_p_dataset_id = 'BIGQUERY_DATASET'
        iv_p_project_id = CONV #( lo_client->gv_project_id )
        iv_p_table_id   = 'BIGQUERY_TABLE'
        is_input        = ls_input
      IMPORTING
        es_output       = DATA(ls_output)
        ev_ret_code     = DATA(lv_ret_code)
        ev_err_text     = DATA(lv_err_text).

    lo_client->close( ).

  CATCH cx_root.
    "handle error
ENDTRY.

다음을 바꿉니다.

  • CLIENT_KEY: 인증을 위해 구성된 클라이언트 키입니다.
  • BIGQUERY_DATASET: 대상 BigQuery 데이터 세트의 ID입니다.
  • BIGQUERY_TABLE: 대상 BigQuery 테이블의 ID입니다.

또는 초기 로드와 델타(CDC) 처리를 모두 처리하는 노 코드 BigQuery 데이터 처리 솔루션을 찾고 있다면 SAP용 BigQuery 커넥터, Cloud Data Fusion 또는 SAP Datasphere를 고려해 볼 수 있습니다.

머신러닝 모델 만들기

BigQuery는 엔터프라이즈 데이터에서 통계를 도출할 수 있는 머신러닝 모델 및 AI 리소스의 포괄적인 목록을 제공합니다. 이러한 모델 중 하나는 ARIMA_PLUS로, 이를 사용하여 이전 데이터를 기반으로 향후 시계열 값을 예측할 수 있습니다. 예를 들어 ARIMA_PLUS 모델을 사용하여 과거 데이터를 기반으로 향후 판매량을 예측할 수 있습니다. BigQuery에 로드한 SAP 데이터로 새 모델을 학습하려면 CREATE MODEL 문을 사용합니다. 데이터 크기에 따라 실행하는 데 몇 분에서 몇 시간까지 걸릴 수 있습니다. 모델이 생성되면 BigQuery Studio에서 모델을 볼 수 있습니다.

모델을 만들고 학습시키려면 CREATE MODEL 문을 실행합니다.

  1. Google Cloud 콘솔에서 새 쿼리 작성 버튼을 클릭합니다.

  2. 쿼리 편집기 상자에 다음과 같은 GoogleSQL 쿼리를 입력합니다.

       CREATE OR REPLACE MODEL `MODEL_NAME`
           OPTIONS
           (model_type = 'ARIMA_PLUS',
           time_series_timestamp_col = 'TIME_SERIES_TIMESTAMP_COL',
           time_series_data_col = 'TIME_SERIES_DATA_COL',
           auto_arima = TRUE,
           data_frequency = 'AUTO_FREQUENCY',
           decompose_time_series = TRUE
             ) AS
         SELECT
           {timestamp_column_name},
           {timeseries_data_column_name}
         FROM
           `{BigQuery_table}`
    

    다음을 바꿉니다.

    • MODEL_NAME: 통계를 생성하기 위해 학습한 모델의 이름입니다.
    • TIME_SERIES_TIMESTAMP_COL: 모델 학습에 사용되는 시간 지점을 제공하는 열의 이름입니다.
    • TIME_SERIES_DATA_COL: 예측할 데이터가 포함된 열의 이름입니다.

    인수에 관한 자세한 내용은 CREATE MODEL 구문을 참고하세요.

  3. 실행을 클릭합니다. 모델이 탐색 패널에 표시됩니다.

통계 생성 및 제공

머신러닝 모델을 사용하여 통계를 생성할 수 있습니다. 예를 들어 ARIMA_PLUS 모델을 만들었다면 이 모델을 사용하여 향후 판매 예측과 같은 시계열 값에 대한 통계를 생성할 수 있습니다.

통계 생성

학습된 모델을 기반으로 통계를 생성하려면 다음 단계를 따르세요.

  1. Google Cloud 콘솔에서 새 쿼리 작성 버튼을 클릭합니다.

  2. 쿼리 편집기 상자에 다음과 같은 GoogleSQL 쿼리를 입력합니다.

    SELECT
    *
    FROM
    ML.FORECAST(MODEL `MODEL_NAME`,
    STRUCT(HORIZON AS horizon, CONFIDENCE_LEVEL AS confidence_level));
    

    다음을 바꿉니다.

    • MODEL_NAME: 통계를 생성하기 위해 학습한 모델의 이름입니다.
    • HORIZON: 예측할 시점 수를 지정하는 INT64 값입니다.
    • CONFIDENCE_LEVEL: 예측 간격에 포함되는 미래 값의 비율을 지정하는 FLOAT64 값입니다.

    인수에 관한 자세한 내용은 ML.FORECAST 함수를 참고하세요.

  3. 실행을 클릭합니다. ML 모델은 향후 날짜의 예측 값 출력을 제공합니다.

  4. 쿼리가 완료되면 결과 탭을 클릭합니다. 다음과 같은 결과가 표시됩니다.

    BigQuery ML을 사용하여 통계 생성 및 제공

통계 제공

ABAP SDK for Google Cloud를 사용하여 SAP 애플리케이션에서 데이터 기반 비즈니스 결정을 위해 생성된 예측을 제공하려면 /GOOG/CL_BIGQUERY_V2 클래스의 QUERY_JOBS 메서드를 사용합니다.

이 섹션에서 설명하는 예시 솔루션을 최소한의 노력으로 배포할 수 있도록 GitHub에서 코드 샘플을 제공합니다. 이 코드 샘플은 ARIMA_PLUS 모델과 ABAP SDK for Google Cloud의 온프레미스 또는 모든 클라우드 버전을 사용하여 향후 시계열 값의 예측을 생성하는 엔드 투 엔드 예를 보여줍니다.

다음 단계

  • BigQuery ML 개요는 BigQuery ML 소개를 참조하세요.
  • 비즈니스 프로세스 및 요구사항에 사용할 수 있는 BigQuery 머신러닝 모델을 평가하려면 각 모델에 대한 엔드 투 엔드 사용자 여정을 참고하세요.
  • 임시 쿼리를 실행하여 BigQuery ML 예측을 가져오는 대신 Cloud Run을 사용하여 BigQuery의 새 데이터 또는 변경된 데이터에 관한 통계를 자동으로 생성할 수 있습니다. 생성된 통계는 임시 BigQuery 테이블에 작성된 후 SAP 애플리케이션에서 검색할 수 있습니다.
  • SAP 데이터에서 더 큰 가치와 통계를 추출하려면 확장 및 확대 가능한 데이터 기반과 함께 SAP와 관련된 일반적인 비즈니스 사용 사례를 위해 사전 구축된 데이터 모델 및 파이프라인을 제공하는 Google Cloud Cortex Data Foundation을 사용할 수 있습니다.
  • Google Cloud 콘솔에 대한 자세한 내용은 Google Cloud 콘솔 사용을 참조하세요.
  • ABAP SDK for Google Cloud에 대해 알아보려면 ABAP SDK for Google Cloud 개요를 참고하세요.
  • ABAP SDK for Google Cloud 문제를 해결하는 데 도움이 필요한 경우 다음을 수행하세요.

참여자

작성자: Ajith Urimajalu | SAP 애플리케이션 엔지니어 팀장

기타 참여자: Vikash Kumar | 기술 문서 작성자