복잡한 머신러닝 워크플로를 조정하려면 데이터 사전 및 사후 처리 단계를 포함하는 프레임워크를 만들면 됩니다. 모델을 학습시키거나 데이터 사후 처리를 통해 모델 출력을 변환하려면 데이터를 사전 처리해야 할 수 있습니다.
ML 워크플로에는 함께 파이프라인을 구성하는 여러 단계가 포함된 경우가 많습니다.
머신러닝 파이프라인을 빌드하려면 다음 방법 중 하나를 사용하면 됩니다.
TensorFlow Extended(TFX) 또는 Kubeflow Pipelines(KFP)와 같은 Apache Beam 및 Dataflow Runner와 내장된 통합 기능을 갖춘 조정 프레임워크를 사용합니다. 이 옵션은 가장 덜 복잡합니다.
Dataflow 템플릿에 커스텀 구성요소를 빌드한 후 ML 파이프라인에서 템플릿을 호출합니다. 호출에는 Apache Beam 코드가 포함됩니다.
ML 파이프라인에 사용할 커스텀 구성요소를 빌드하고 구성요소에 직접 Python 코드를 입력합니다. 커스텀 Apache Beam 파이프라인을 정의하고 커스텀 구성요소 내에서 Dataflow Runner를 사용합니다. 이 옵션은 가장 복잡하며 파이프라인 종속 항목을 관리해야 합니다.
머신러닝 파이프라인을 만든 후에는 조정자를 사용하여 구성요소를 연결하여 엔드 투 엔드 머신러닝 워크플로를 만들 수 있습니다. 구성요소를 조정하려면 Vertex AI Pipelines과 같은 관리형 서비스를 사용하면 됩니다.
Vertex AI Pipelines는 서버리스 방식으로 ML 워크플로를 조정하여 ML 시스템을 자동화, 모니터링, 제어하는 데 도움이 됩니다. Vertex AI Pipelines를 사용하여 TFX 또는 KFP로 정의된 워크플로 방향성 비순환 그래프(DAG)를 조정하고 Vertex ML Metadata를 사용하여 ML 아티팩트를 자동으로 추적할 수 있습니다.
TFX 및 KFP와 Dataflow를 통합하는 방법은 다음 섹션의 정보를 참조하세요.
Kubeflow는 Kubernetes에서 ML 워크플로 배포를 간단하고 이식 및 확장할 수 있도록 지원하는 툴킷입니다. Kubeflow Pipelines는 Kubeflow Pipelines SDK를 사용하여 빌드된 재사용 가능한 엔드 투 엔드 ML 워크플로입니다.
Kubeflow Pipelines 서비스는 엔드 투 엔드 조정을 제공하고 실험과 재사용을 용이하게 하는 것을 목표로 합니다. KFP를 사용하면 조정 기법을 실험하고 테스트를 관리할 수 있으며, 매번 처음부터 다시 시작하지 않고도 구성요소와 파이프라인을 재사용하여 여러 엔드 투 엔드 솔루션을 만들 수 있습니다.
완전히 커스텀 구성요소를 빌드하려면 Vertex AI 문서의 Dataflow 구성요소 페이지를 참조하세요.
TFX에 Dataflow를 사용하고 싶습니다
TFX 파이프라인 구성요소는 TFX 라이브러리에 빌드되고 데이터 처리 라이브러리는 Apache Beam을 직접 사용합니다. 예를 들어 TensorFlow Transform은 사용자의 호출을 Apache Beam으로 변환합니다.
따라서 추가 구성 작업을 수행할 필요 없이 TFX 파이프라인에서 Apache Beam 및 Dataflow를 사용할 수 있습니다.
Dataflow에서 TFX를 사용하려면 TFX 파이프라인을 빌드할 때 Dataflow 실행기를 사용하세요. 자세한 내용은 다음 리소스를 참조하세요.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-08-18(UTC)"],[[["\u003cp\u003eMachine learning (ML) workflows often involve multiple steps that form a pipeline, including data pre- and post-processing.\u003c/p\u003e\n"],["\u003cp\u003eML pipelines can be constructed using orchestration frameworks like TensorFlow Extended (TFX) or Kubeflow Pipelines (KFP), or by building custom components.\u003c/p\u003e\n"],["\u003cp\u003eVertex AI Pipelines can be used to manage and orchestrate ML workflows, including those defined by TFX or KFP, while also tracking ML artifacts.\u003c/p\u003e\n"],["\u003cp\u003eKFP provides a way to create reusable, end-to-end ML workflows, with Dataflow integration that allows the use of \u003ccode\u003eDataflowPythonJobOP\u003c/code\u003e or \u003ccode\u003eDataflowFlexTemplateJobOp\u003c/code\u003e operators.\u003c/p\u003e\n"],["\u003cp\u003eTFX pipelines can use Apache Beam and Dataflow without additional configuration, as TFX data processing libraries already utilize Apache Beam directly.\u003c/p\u003e\n"]]],[],null,["To orchestrate complex machine learning workflows, you can create frameworks that\ninclude data pre- and post-processing steps. You might need to pre-process data\nbefore you can use it to train your model or to post-process data to transform the\noutput of your model.\n\nML workflows often contain many steps that together form a pipeline.\nTo build your machine learning pipeline, you can use one of the following\nmethods.\n\n- Use an orchestration framework that has a built-in integration with Apache Beam and the Dataflow runner, such as TensorFlow Extended (TFX) or Kubeflow Pipelines (KFP). This option is the least complex.\n- Build a custom component in a [Dataflow template](/dataflow/docs/concepts/dataflow-templates) and then call the template from your ML pipeline. The call contains your Apache Beam code.\n- Build a custom component to use in your ML pipeline and put the Python code directly in the component. You define a custom Apache Beam pipeline and use the Dataflow runner within the custom component. This option is the most complex and requires you to manage pipeline dependencies.\n\nAfter you create your machine learning pipeline, you can use an orchestrator to\nchain together the components to create an end-to-end machine learning\nworkflow. To orchestrate the components, you can use a managed service, such as\n[Vertex AI Pipelines](/vertex-ai/docs/pipelines/introduction).\n\nWorkflow orchestration use cases are described in the following sections.\n\n- [I want to use Dataflow with Vertex AI Pipelines](#vertex)\n- [I want to use Dataflow with KFP](#kfp)\n- [I want to use Dataflow with TFX](#tfx)\n\nBoth\n[TFX](https://www.tensorflow.org/tfx)\nand\n[Kubeflow Pipelines](https://www.kubeflow.org/docs/components/pipelines/v1/introduction/)\n(KFP) use Apache Beam components.\n\nI want to use Dataflow with Vertex AI Pipelines\n\nVertex AI Pipelines help you to automate, monitor, and govern your ML\nsystems by orchestrating your ML workflows in a serverless manner. You can use\nVertex AI Pipelines to orchestrate workflow directed acyclic graphs (DAGs)\ndefined by either TFX or\nKFP and to automatically track your ML artifacts using Vertex ML Metadata.\nTo learn how to incorporate Dataflow with TFX and KFP, use the\ninformation in the following sections.\n\n- [Kubeflow Pipelines](#kfp)\n- [TFX pipeline](#tfx)\n\nI want to use Dataflow with Kubeflow Pipelines\n\nKubeflow is an ML toolkit dedicated to making deployments\nof ML workflows on Kubernetes simple, portable, and scalable. Kubeflow Pipelines\nare reusable end-to-end ML workflows built using the\n[Kubeflow Pipelines SDK](https://www.kubeflow.org/docs/components/pipelines/v1/sdk/sdk-overview/).\n\nThe Kubeflow Pipelines service aims to provide end-to-end orchestration and to\nfacilitate experimentation and reuse. With KFP, you can experiment with orchestration\ntechniques and manage your tests, and you can reuse components and pipelines to\ncreate multiple end-to-end solutions without starting over each time.\n\nWhen using Dataflow with KFP, you can use the\n[`DataflowPythonJobOP`](/vertex-ai/docs/pipelines/dataflow-component#dataflowpythonjobop)\noperator or the\n[`DataflowFlexTemplateJobOp`](/vertex-ai/docs/pipelines/dataflow-component#dataflowflextemplatejobop_preview)\noperator. You can also build a fully custom component. We recommend using the\n`DataflowPythonJobOP` operator.\n\nIf you want to build a fully custom component, see the\n[Dataflow components](/vertex-ai/docs/pipelines/dataflow-component) page\nin the Vertex AI documentation.\n\nI want to use Dataflow with TFX\n\nTFX pipeline components are built on TFX libraries,\nand the data processing libraries use Apache Beam directly. For example,\nTensorFlow Transform translates the user's calls to Apache Beam.\nTherefore, you can use Apache Beam and Dataflow with\nTFX pipelines without needing to do extra configuration work.\nTo use TFX with Dataflow, when you build your\nTFX pipeline, use the Dataflow\nrunner. For more information, see the following resources:\n\n- [Apache Beam and TFX](https://www.tensorflow.org/tfx/guide/beam)\n- [TensorFlow Extended (TFX): Using Apache Beam for large scale data processing](https://blog.tensorflow.org/2020/03/tensorflow-extended-tfx-using-apache-beam-large-scale-data-processing.html)"]]