SQL 워크플로 소개

이 문서는 Dataform에서 SQL 워크플로의 아키텍처와 실행을 이해하는 데 도움이 됩니다.

Dataform을 사용하여 분석 목적으로 데이터를 변환하기 위해 BigQuery에서 실행할 수 있는 SQL 워크플로를 개발, 테스트, 버전 제어할 수 있습니다. Dataform Core를 사용하거나 SQLX 파일과 선택적 JavaScript 파일을 사용하거나 JavaScript를 사용하여 SQL 워크플로를 개발할 수 있습니다.

SQL 워크플로는 다음 객체로 구성될 수 있습니다.

데이터 소스 선언
Dataform 테이블 정의 및 SQL 작업에서 이러한 데이터 소스를 참조할 수 있는 BigQuery 데이터 소스 선언입니다.
테이블
SQL 워크플로에 선언된 데이터 소스 또는 기타 테이블을 기반으로 Dataform에서 만드는 테이블입니다. Dataform은 테이블, 증분 테이블, 뷰, 구체화된 뷰와 같은 테이블 유형을 지원합니다.
어설션
테이블 데이터 유효성을 검사하는 데 사용할 수 있는 데이터 품질 테스트 쿼리입니다. Dataform은 SQL 워크플로를 업데이트할 때마다 어설션을 실행하고 어설션이 실패하면 알림을 제공합니다.
커스텀 SQL 작업
Dataform이 수정하지 않고 그대로 BigQuery에서 실행하는 SQL 문입니다.
포함 항목
SQL 워크플로에서 재사용할 수 있는 변수 및 함수의 정의가 포함된 JavaScript 파일입니다.

SQL 워크플로 시각화

방향성 비순환 그래프(DAG) 형식으로 시각화된 SQL 워크플로를 볼 수 있습니다. DAG는 작업공간에 정의된 SQL 워크플로의 모든 객체와 이들 간의 관계를 표시합니다. 확대 및 축소하고 드래그 앤 드롭을 사용하여 DAG를 탐색할 수 있습니다. SQL 워크플로에 컴파일 오류가 있으면 Dataform에 DAG 대신 오류 메시지가 표시됩니다.

SQL 워크플로의 DAG를 보려면 작업공간에서 컴파일된 그래프를 클릭합니다.

SQL 워크플로 실행

개발 작업공간에서 전체 SQL 워크플로, 선택한 작업 또는 선택한 태그 실행을 수동으로 트리거할 수 있습니다.

Dataform 출시 구성워크플로 구성으로 실행을 예약할 수 있습니다. 먼저 출시 구성을 만들어 저장소의 컴파일 결과를 만듭니다. 그런 다음 워크플로 구성을 만들고, 출시 구성을 선택하고, 실행할 SQL 워크플로 작업을 선택하고, 실행 일정을 설정합니다.

또는 Cloud Composer 또는 Workflows 및 Cloud Scheduler를 사용하여 실행을 예약할 수 있습니다.

실행 중에 Dataform은 SQL 워크플로에서 객체 종속 항목 순서에 따라 BigQuery에서 SQL 쿼리를 실행합니다. 실행 후에는 정의된 테이블과 뷰를 BigQuery의 모든 분석 목적으로 사용할 수 있습니다.

실행 구성 옵션

SQL 워크플로 객체의 특정 그룹을 실행하려면 선택한 파일에 Dataform 실행 태그를 추가하면 됩니다. 그런 후 수동으로 실행을 트리거할 때 선택한 태그가 포함된 파일만 실행할 수 있습니다.

기본적으로 Dataform은 dataform.json 파일에 정의된 실행 설정으로 SQL 워크플로를 실행합니다. 이러한 실행 설정은 컴파일 재정의로 재정의할 수 있습니다.

작업공간 컴파일 재정의를 사용하면 작업공간을 격리된 실행 환경으로 변환할 수 있습니다. 즉, 작업공간에서 수동으로 실행을 트리거하면 Dataform이 BigQuery의 격리된 위치에서 출력을 실행합니다.

컴파일 재정의를 사용하여 단일 컴파일 결과를 만들고 실행하려면 Dataform API로 요청을 전달할 수 있습니다.

출시 구성을 사용하면 전체 저장소의 컴파일 재정의와 적용된 설정으로 컴파일 결과를 만드는 빈도를 구성할 수 있습니다.

Dataform에서 컴파일 및 코드 수명 주기를 구성하는 방법에 대한 자세한 내용은 Dataform에서 코드 수명 주기 소개를 참조하세요.

다음 단계