ML 파이프라인 개요

이 문서에서는 BigQuery ML MLOps 워크플로를 관리하기 위한 ML 파이프라인을 빌드하는 데 사용할 수 있는 서비스를 간략하게 설명합니다.

ML 파이프라인은 일련의 파이프라인 태스크로 구성된 MLOps 워크플로를 나타냅니다. 파이프라인 태스크마다 MLOps 워크플로에서 특정 단계를 수행하여 모델을 학습시키고 배포합니다. 각 단계를 표준화된 재사용 가능한 태스크로 분리하면 ML 사용 시 반복 가능한 프로세스를 자동화하고 모니터링할 수 있습니다.

다음 서비스를 사용하여 BigQuery ML ML 파이프라인을 만들 수 있습니다.

Vertex AI Pipelines를 사용하여 이동 및 확장 가능한 ML 파이프라인을 만듭니다.
GoogleSQL 쿼리를 사용하여 덜 복잡한 SQL 기반 ML 파이프라인을 만듭니다.
Dataform을 사용하여 더욱 복잡한 SQL 기반 ML 파이프라인이나 버전 제어를 사용해야 하는 ML 파이프라인을 만듭니다.

Vertex AI Pipelines

Vertex AI Pipelines에서 ML 파이프라인은 입력-출력 종속 항목을 통해 상호 연결된 컨테이너화된 파이프라인 태스크의 방향성 비순환 그래프(DAG)로 구조화됩니다. 각 파이프라인 태스크는 특정 입력으로 파이프라인 구성요소를 인스턴스화합니다. ML 파이프라인을 정의할 때 ML 워크플로에서 파이프라인 태스크 하나의 출력을 다음 파이프라인 태스크의 입력으로 라우팅하여 여러 파이프라인 태스크를 연결해 DAG를 형성합니다. ML 파이프라인에 대한 원래 입력을 지정된 파이프라인 태스크의 입력으로 사용할 수도 있습니다.

Google Cloud 파이프라인 구성요소 SDK의 BigQuery ML 구성요소를 사용하여 Vertex AI Pipelines에서 ML 파이프라인을 구성합니다. BigQuery ML 구성요소를 시작하려면 다음 노트북을 참조하세요.

GoogleSQL 쿼리

GoogleSQL 절차적 언어를 사용하여 멀티 문 쿼리에서 여러 문을 실행할 수 있습니다. 멀티 문 쿼리를 사용하여 다음을 수행할 수 있습니다.

공유 상태로 한 시퀀스에서 여러 문을 실행합니다.
테이블 만들기 또는 테이블 삭제와 같은 관리 태스크를 자동화합니다.
IF 및 WHILE과 같은 프로그래밍 구조를 사용하여 복잡한 로직을 구현합니다.

멀티 문 쿼리를 만든 후에는 쿼리를 저장 및 예약하여 모델 학습, 추론, 모니터링을 자동화할 수 있습니다.

ML 파이프라인에서 ML.GENERATE_TEXT 함수를 사용할 수 있는 경우 SQL을 사용하여 함수 호출을 반복하는 방법에 대한 자세한 내용은 ML.GENERATE_TEXT를 반복적으로 호출하여 할당량 오류 처리를 참조하세요. 함수를 반복적으로 호출하면 할당량 및 한도를 초과하여 발생하는 재시도 가능한 오류를 해결할 수 있습니다.

Dataform

Dataform을 사용하여 BigQuery에서 데이터 변환에 사용되는 복잡한 SQL 워크플로를 개발, 테스트, 버전 제어, 예약할 수 있습니다. Dataform을 사용하면 데이터 통합을 위한 추출, 로드, 변환(ELT) 프로세스에서 데이터 변환과 같은 태스크를 수행할 수 있습니다. 원시 데이터가 소스 시스템에서 추출되어 BigQuery로 로드된 후에 Dataform을 사용하면 데이터를 잘 정의되고 테스트를 거쳤으며 문서화된 데이터 테이블 제품군으로 변환할 수 있습니다.

ML 파이프라인에서 ML.GENERATE_TEXT 함수를 사용할 수 있으면 structured_table_ml.js 예시 라이브러리를 조정하여 함수 호출을 반복할 수 있습니다. 함수를 반복적으로 호출하면 함수에 적용되는 할당량 및 한도를 초과하여 발생하는 재시도 가능한 오류를 해결할 수 있습니다.