엔드 투 엔드 AutoML의 테이블 형식 워크플로는 분류 및 회귀 태스크를 위한 완전 AutoML 파이프라인입니다. AutoML API와 비슷하지만 제어할 항목과 자동화할 항목을 선택할 수 있습니다. 전체 파이프라인을 제어하는 대신 파이프라인의 모든 단계를 제어할 수 있습니다. 이러한 파이프라인 제어에는 다음이 포함됩니다.
데이터 분할
특성 추출
아키텍처 검색
모델 학습
모델 앙상블
모델 정제
이점
엔드 투 엔드 AutoML용
테이블 형식 워크플로의 몇 가지 이점으로
크기가 수 TB이고 열이 최대 1,000개까지 있는 대규모 데이터 세트를 지원합니다.
아키텍처 유형의 검색 공간을 제한하거나 아키텍처 검색을 건너뛰어 안정성을 높이고 학습 시간을 낮출 수 있습니다.
학습 및 아키텍처 검색에 사용되는 하드웨어를 수동으로 선택하여 학습 속도를 향상시킬 수 있습니다.
정제를 사용하거나 앙상블 크기를 변경하여 모델 크기를 줄이고 지연 시간을 개선할 수 있습니다.
변환된 데이터 테이블, 평가된 모델 아키텍처, 기타 다양한 세부정보를 볼 수 있는 강력한 파이프라인 그래프 인터페이스에서 각 AutoML 구성요소를 검사할 수 있습니다.
각 AutoML 구성요소는 매개변수, 하드웨어, 뷰 프로세스 상태, 로그 등을 맞춤설정할 수 있게 하는 등 유연성과 투명성이 확장됩니다.
Vertex AI 파이프라인의 엔드 투 엔드 AutoML
엔드 투 엔드 AutoML용 테이블 형식 워크플로는 Vertex AI Pipelines의 관리형 인스턴스입니다.
Vertex AI Pipelines는 Kubeflow 파이프라인을 실행하는 서버리스 서비스입니다. 파이프라인을 사용하여 머신러닝 및 데이터 준비 태스크를 자동화하고 모니터링할 수 있습니다. 파이프라인의 각 단계에서 파이프라인 워크플로 일부를 수행합니다. 예를 들어 파이프라인에 데이터 분할, 데이터 유형 변환, 모델 학습 단계가 포함될 수 있습니다. 단계는 파이프라인 구성요소의 인스턴스이므로 단계에는 입력, 출력, 컨테이너 이미지가 있습니다. 단계 입력은 파이프라인의 입력에서 설정되거나 이 파이프라인 내의 다른 단계의 출력에 따라 달라질 수 있습니다. 이러한 종속 항목은 파이프라인의 워크플로를 방향성 비순환 그래프(DAG)로 정의합니다.
파이프라인 및 구성요소 개요
다음 다이어그램은 엔드 투 엔드 AutoML용 테이블 형식 워크플로의 모델링 파이프라인을 보여줍니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-08(UTC)"],[],[],null,["# Tabular Workflow for End-to-End AutoML\n\nThis document provides an overview of the End-to-End AutoML\n[pipeline and components](#components). To learn how to train a model with End-to-End AutoML,\nsee [Train a model with End-to-End AutoML](/vertex-ai/docs/tabular-data/tabular-workflows/e2e-automl-train).\n\n\nTabular Workflow for End-to-End AutoML is a complete AutoML\npipeline for classification and regression tasks. It is similar to the\n[AutoML API](/vertex-ai/docs/tabular-data/classification-regression/overview),\nbut allows you to choose what to control and what to automate. Instead of having\ncontrols for the *whole* pipeline, you have controls for *every step* in the\npipeline. These pipeline controls include:\n\n- Data splitting\n- Feature engineering\n- Architecture search\n- Model training\n- Model ensembling\n- Model distillation\n\n\u003cbr /\u003e\n\nBenefits\n--------\n\nThe following lists some of the benefits of\nTabular Workflow for End-to-End AutoML\n:\n\n\n- Supports **large datasets** that are multiple TB in size and have up to 1000 columns.\n- Allows you to **improve stability and lower training time** by limiting the search space of architecture types or skipping architecture search.\n- Allows you to **improve training speed** by manually selecting the hardware used for training and architecture search.\n- Allows you to **reduce model size and improve latency** with distillation or by changing the ensemble size.\n- Each AutoML component can be inspected in a powerful pipelines graph interface that lets you see the transformed data tables, evaluated model architectures, and many more details.\n- Each AutoML component gets extended flexibility and transparency, such as being able to customize parameters, hardware, view process status, logs, and more.\n\n\u003cbr /\u003e\n\nEnd-to-End AutoML on Vertex AI Pipelines\n----------------------------------------\n\n\nTabular Workflow for End-to-End AutoML\nis a managed instance of Vertex AI Pipelines.\n\n\n[Vertex AI Pipelines](/vertex-ai/docs/pipelines/introduction) is a serverless\nservice that runs Kubeflow pipelines. You can use pipelines to automate\nand monitor your machine learning and data preparation tasks. Each step in a\npipeline performs part of the pipeline's workflow. For example,\na pipeline can include steps to split data, transform data types, and train a model. Since steps\nare instances of pipeline components, steps have inputs, outputs, and a\ncontainer image. Step inputs can be set from the pipeline's inputs or they can\ndepend on the output of other steps within this pipeline. These dependencies\ndefine the pipeline's workflow as a directed acyclic graph.\n\nOverview of pipeline and components\n-----------------------------------\n\nThe following diagram shows the modeling pipeline for\nTabular Workflow for End-to-End AutoML\n:\n\n\u003cbr /\u003e\n\nThe pipeline components are:\n\n1. **feature-transform-engine** : Performs feature engineering. See [Feature Transform Engine](/vertex-ai/docs/tabular-data/tabular-workflows/feature-engineering) for details.\n2. **split-materialized-data** : Split the materialized data into a training set, an evaluation set, and a test set.\n\n \u003cbr /\u003e\n\n Input:\n - Materialized data `materialized_data`.\n\n Output:\n - Materialized training split `materialized_train_split`.\n - Materialized evaluation split `materialized_eval_split`.\n - Materialized test set `materialized_test_split`.\n3. **merge-materialized-splits** - Merges the materialized evaluation split and the materialized train split.\n4. **automl-tabular-stage-1-tuner** - Performs model architecture search and tunes hyperparameters.\n\n - An architecture is defined by a set of hyperparameters.\n - Hyperparameters include the model type and the model parameters.\n - Model types considered are neural networks and boosted trees.\n - The system trains a model for each architecture considered.\n5. **automl-tabular-cv-trainer** - Cross-validates architectures by training models on different folds of the input data.\n\n - The architectures considered are those that give the best results in the previous step.\n - The system selects approximately ten best architectures. The precise number is defined by the training budget.\n6. **automl-tabular-ensemble** - Ensembles the best architectures to produce a final model.\n\n - The following diagram illustrates K-fold cross-validation with bagging:\n\n \u003cbr /\u003e\n\n7. **condition-is-distill** - **Optional**. Creates a smaller version of the ensemble model.\n\n - A smaller model reduces latency and cost for inference.\n8. **automl-tabular-infra-validator** - Validates whether the trained model is a valid model.\n\n9. **model-upload** - Uploads the model.\n\n10. **condition-is-evaluation** - **Optional**. Uses the test set to calculate evaluation metrics.\n\nWhat's next\n-----------\n\n- [Train a model using End-to-End\n AutoML](/vertex-ai/docs/tabular-data/tabular-workflows/e2e-automl-train)."]]