TabNet의 테이블 형식 워크플로

이 문서에서는 TabNet 파이프라인 및 구성요소용 테이블 형식 워크플로를 간략하게 설명합니다. TabNet으로 모델을 학습시키는 방법은 TabNet을 사용한 모델 학습을 참조하세요.

TabNet순차적 주의를 사용하여 각 결정 단계에서 추론할 특성을 선택합니다. 이렇게 하면 학습 용량이 가장 중요한 특징에 사용되므로 해석 가능성과 학습 효율성이 향상됩니다.

이점

  • 데이터 세트 크기, 예측 유형, 학습 예산에 따라 적절한 초매개변수 검색 공간을 자동으로 선택합니다.
  • Vertex AI와 통합되었습니다. 학습된 모델은 Vertex AI 모델입니다. 일괄 예측을 실행하거나 온라인 예측에 사용되는 모델을 즉시 배포할 수 있습니다.
  • 고유한 모델 해석 가능성을 제공합니다. TabNet의 의사 결정에 사용된 기능에 대한 통찰력을 얻을 수 있습니다.
  • GPU 학습을 지원합니다.

Vertex AI Pipelines의 TabNet

TabNet용 테이블 형식 워크플로는 Vertex AI Pipelines의 관리형 인스턴스입니다.

Vertex AI Pipelines는 Kubeflow 파이프라인을 실행하는 서버리스 서비스입니다. 파이프라인을 사용하여 머신러닝 및 데이터 준비 태스크를 자동화하고 모니터링할 수 있습니다. 파이프라인의 각 단계에서 파이프라인 워크플로 일부를 수행합니다. 예를 들어 파이프라인에 데이터 분할, 데이터 유형 변환, 모델 학습 단계가 포함될 수 있습니다. 단계는 파이프라인 구성요소의 인스턴스이므로 단계에는 입력, 출력, 컨테이너 이미지가 있습니다. 단계 입력은 파이프라인의 입력에서 설정되거나 이 파이프라인 내의 다른 단계의 출력에 따라 달라질 수 있습니다. 이러한 종속 항목은 파이프라인의 워크플로를 방향성 비순환 그래프(DAG)로 정의합니다.

TabNet용 테이블 형식 워크플로에는 두 가지 버전이 있습니다.

  • HyperparameterTuningJob은 모델 학습에 사용할 최적의 초매개변수 값 집합을 검색합니다.
  • CustomJob을 사용하면 모델 학습에 사용할 초매개변수 값을 지정할 수 있습니다. 필요한 초매개변수 값을 정확히 알고 있으면 해당 값을 검색하지 않고 지정하고 학습 리소스에 저장할 수 있습니다.

TabNet CustomJob 파이프라인 및 구성요소 개요

다음 다이어그램에서는 TabNet CustomJob 파이프라인을 보여줍니다.

TabNet CustomJob 파이프라인 

파이프라인 구성요소는 다음과 같습니다.

  1. feature-transform-engine: 특성 추출을 수행합니다. 자세한 내용은 Feature Transform Engine을 참조하세요.
  2. split-Materialized-data: 구체화된 데이터를 학습 세트, 평가 세트, 테스트 세트로 분할합니다.

    입력:

    • 구체화된 데이터 materialized_data

    출력:

    • 구체화된 학습 분할 materialized_train_split
    • 구체화된 평가 분할 materialized_eval_split
    • 구체화된 테스트 세트 materialized_test_split
  3. tabnet-trainer: 모델 학습을 수행합니다.

    입력:

    • 인스턴스 기준 instance_baseline
    • 학습 스키마 training_schema
    • 출력 변환 transform_output
    • 구체화된 학습 분할 materialized_train_split
    • 구체화된 평가 분할 materialized_eval_split
    • 구체화된 테스트 세트 materialized_test_split

    출력:

    • 최종 모델
  4. automl-tabular-infra-validator: 예측 요청을 보내고 성공적으로 완료되었는지 확인하여 학습된 모델을 검증합니다.
  5. model-upload: 사용자의 Cloud Storage 버킷의 모델을 Vertex AI 모델로 Vertex AI에 업로드합니다.
  6. condition-run-evaluation-2: 선택사항. 테스트 세트를 사용하여 평가 측정항목을 계산합니다. run_evaluationtrue로 설정된 경우에만 실행됩니다.

TabNet HyperparameterTuningJob 파이프라인 및 구성요소 개요

다음 다이어그램에서 TabNet HyperparameterTuningJob 파이프라인을 보여줍니다

TabNet HyperparameterTuningJob 파이프라인 

  1. feature-transform-engine: 특성 추출을 수행합니다. 자세한 내용은 Feature Transform Engine을 참조하세요.
  2. split-Materialized-data: 구체화된 데이터를 학습 세트, 평가 세트, 테스트 세트로 분할합니다.

    입력:

    • 구체화된 데이터 materialized_data

    출력:

    • 구체화된 학습 분할 materialized_train_split
    • 구체화된 평가 분할 materialized_eval_split
    • 구체화된 테스트 세트 materialized_test_split
  3. get-tabnet-study-spec-parameters: 학습 파이프라인 구성에 따라 연구 사양을 생성합니다. 사용자가 study_spec_parameters_override 값을 제공하면 이러한 값을 사용하여 연구 사양 값을 재정의합니다.

    입력:

    • 학습 파이프라인 구성(max_trial_count, prediction_type)
    • 데이터 세트 통계 dataset_stats
    • 연구 사양 매개변수 선택적 재정의 study_spec_parameters_override

    출력:

    • 초매개변수 조정 작업의 초매개변수 및 범위의 최종 목록
  4. tabnet-hyperparameter-tuning-job: 초매개변수 조정 시도를 하나 이상 수행합니다.

    입력:

    • 인스턴스 기준 instance_baseline
    • 학습 스키마 training_schema
    • 출력 변환 transform_output
    • 구체화된 학습 분할 materialized_train_split
    • 구체화된 평가 분할 materialized_eval_split
    • 구체화된 테스트 세트 materialized_test_split
    • 초매개변수 조정 작업의 초매개변수와 해당 범위의 목록
  5. get-best-hyperparameter-tuning-job-trial: 이전 단계의 최고 초매개변수 조정 작업 시도에서 모델을 선택합니다.

    출력:

    • 최종 모델
  6. automl-tabular-infra-validator: 예측 요청을 보내고 성공적으로 완료되었는지 확인하여 학습된 모델을 검증합니다.
  7. model-upload: 사용자의 Cloud Storage 버킷의 모델을 Vertex AI 모델로 Vertex AI에 업로드합니다.
  8. condition-run-evaluation-2: 선택사항. 테스트 세트를 사용하여 평가 측정항목을 계산합니다. run_evaluationtrue로 설정된 경우에만 실행됩니다.

다음 단계