예측용 테이블 형식 워크플로

이 문서에서는 예측용 파이프라인 및 구성요소를 위한 테이블 형식 워크플로를 간략하게 설명합니다. 모델 학습 방법은 예측용 테이블 형식 워크플로를 사용한 모델 학습을 참조하세요.

예측용 테이블 형식 워크플로는 예측 태스크의 전체 파이프라인입니다. AutoML API와 비슷하지만 제어할 항목과 자동화할 항목을 선택할 수 있습니다. 전체 파이프라인을 제어하는 대신 파이프라인의 모든 단계를 제어할 수 있습니다. 이러한 파이프라인 제어에는 다음이 포함됩니다.

  • 데이터 분할
  • 특성 추출
  • 아키텍처 검색
  • 모델 학습
  • 모델 앙상블

이점

예측용 테이블 형식 워크플로의 몇 가지 이점은 다음과 같습니다.

  • 크기가 최대 1TB이고 열이 최대 200개까지 있는 대규모 데이터 세트를 지원합니다.
  • 아키텍처 유형의 검색 공간을 제한하거나 아키텍처 검색을 건너뛰어 안정성을 높이고 학습 시간을 낮출 수 있습니다.
  • 학습 및 아키텍처 검색에 사용되는 하드웨어를 수동으로 선택하여 학습 속도를 향상시킬 수 있습니다.
  • 일부 모델 학습 방법의 경우 앙상블 크기를 변경하여 모델 크기를 줄이고 지연 시간을 개선할 수 있습니다.
  • 변환된 데이터 테이블, 평가된 모델 아키텍처, 기타 다양한 세부정보를 볼 수 있는 강력한 파이프라인 그래프 인터페이스에서 각 구성요소를 검사할 수 있습니다.
  • 각 구성요소는 매개변수, 하드웨어, 뷰 프로세스 상태, 로그 등을 맞춤설정할 수 있게 하는 등 유연성과 투명성이 확장됩니다.

Vertex AI Pipelines 예측

예측용 테이블 형식 워크플로는 Vertex AI Pipelines의 관리형 인스턴스입니다.

Vertex AI Pipelines는 Kubeflow 파이프라인을 실행하는 서버리스 서비스입니다. 파이프라인을 사용하여 머신러닝 및 데이터 준비 태스크를 자동화하고 모니터링할 수 있습니다. 파이프라인의 각 단계에서 파이프라인 워크플로 일부를 수행합니다. 예를 들어 파이프라인에 데이터 분할, 데이터 유형 변환, 모델 학습 단계가 포함될 수 있습니다. 단계는 파이프라인 구성요소의 인스턴스이므로 단계에는 입력, 출력, 컨테이너 이미지가 있습니다. 단계 입력은 파이프라인의 입력에서 설정되거나 이 파이프라인 내의 다른 단계의 출력에 따라 달라질 수 있습니다. 이러한 종속 항목은 파이프라인의 워크플로를 방향성 비순환 그래프(DAG)로 정의합니다.

파이프라인 및 구성요소 개요

다음 다이어그램은 예측용 테이블 형식 워크플로의 모델링 파이프라인을 보여줍니다.

예측용 파이프라인 

파이프라인 구성요소는 다음과 같습니다.

  1. feature-transform-engine: 특성 추출을 수행합니다. 자세한 내용은 Feature Transform Engine을 참조하세요.
  2. training-configurator-and-validator: 학습 구성을 검증하고 학습 메타데이터를 생성합니다.

    입력:

    • instance_schema: 예측 데이터의 데이터 유형을 설명하는 OpenAPI 사양의 인스턴스 스키마
    • dataset_stats: 원시 데이터 세트를 설명하는 통계. 예를 들어 dataset_stats는 데이터 세트의 행 수를 제공합니다.
    • training_schema: 학습 데이터의 데이터 유형을 설명하는 OpenAPI 사양의 학습 데이터 스키마
  3. split-Materialized-data: 구체화된 데이터를 학습 세트, 평가 세트, 테스트 세트로 분할합니다.

    입력:

    • materialized_data: 구체화된 데이터

    출력:

    • materialized_train_split: 구체화된 학습 분할
    • materialized_eval_split: 구체화된 평가 분할
    • materialized_test_split: 구체화된 테스트 세트
  4. calculate-training-parameters-2: automl-forecasting-stage-1-tuner의 예상 런타임 기간을 계산합니다.

  5. get-hyperparameter-tuning-results - 선택사항: 아키텍처 검색을 건너뛰도록 파이프라인을 구성한 경우 이전 파이프라인 실행에서 초매개변수 조정 결과를 로드합니다.

  6. 모델 아키텍처 검색을 수행하고 초매개변수를 조정하거나(automl-forecasting-stage-1-tuner) 이전 파이프라인 실행의 초매개변수 조정 결과를 사용합니다(automl-forecasting-stage-2-tuner).

    • 아키텍처는 초매개변수 집합으로 정의됩니다.
    • 초매개변수에는 모델 유형과 모델 매개변수가 포함됩니다.
    • 고려되는 모델 유형은 신경망과 부스팅된 트리입니다.
    • 고려되는 각 아키텍처에 대해 모델이 학습됩니다.

    입력:

    • materialized_train_split: 구체화된 학습 분할
    • materialized_eval_split: 구체화된 평가 분할
    • artifact - 이전 파이프라인 실행의 초매개변수 조정 결과. 이 아티팩트는 아키텍처 검색을 건너뛰도록 파이프라인을 구성한 경우에만 입력입니다.

    출력:

    • tuning_result_output: 조정 출력
  7. get-prediction-image-uri-2: 모델 유형에 따라 올바른 예측 이미지 URI를 생성합니다.

  8. automl-forecasting-ensemble-2: 최종 모델을 생성하는 데 가장 적합한 아키텍처를 앙상블합니다.

    입력:

    • tuning_result_output: 조정 출력

    출력:

    • unmanaged_container_model: 출력 모델
  9. model-upload-2 - 모델을 업로드합니다.

    입력:

    • unmanaged_container_model: 출력 모델

    출력:

    • model: Vertex AI 모델
  10. should_run_model_evaluation - 선택사항: 테스트 세트를 사용하여 평가 측정항목을 계산합니다.

다음 단계