이 문서에서는 Dataform 개념 및 프로세스를 소개합니다.
Dataform은 데이터 분석가가 BigQuery에서 데이터 변환을 위해 복잡한 SQL 워크플로를 개발, 테스트, 버전 제어, 예약할 수 있는 서비스입니다.
Dataform을 사용하면 데이터 통합을 위해 추출, 로드, 변환(ELT) 프로세스에서 데이터 변환을 관리할 수 있습니다. 원시 데이터를 소스 시스템에서 추출하여 BigQuery에 로드한 후 Dataform을 사용하여 잘 정의되고 테스트되고 문서화된 데이터 테이블 제품군으로 변환할 수 있습니다.
Dataform을 사용하면 다음 데이터 변환 작업을 수행할 수 있습니다.
- 데이터 변환을 위한 SQL 워크플로를 개발하고 실행합니다.
- Git를 통해 SQL 워크플로 개발에 대해 팀원과 공동작업합니다.
- 다수의 테이블과 종속 항목을 관리합니다.
- 소스 데이터를 선언하고 테이블 종속 항목을 관리합니다.
- SQL 워크플로의 종속 항목 트리 시각화를 봅니다.
- 중앙 저장소의 SQL 코드로 데이터를 관리합니다.
- JavaScript에서 코드를 재사용합니다.
- 소스 및 출력 테이블의 품질 테스트로 데이터 정확성을 검증합니다.
- 버전 제어 SQL 코드
- SQL 코드 내에서 데이터 테이블을 문서화합니다.
Dataform은 현재 고객 관리 암호화 키(CMEK) 및 VPC 서비스 제어를 지원하지 않습니다. Dataform을 사용하려면 VPC 서비스 제어 경계에서 BigQuery 리소스를 제외해야 합니다. 또는 Dataform CLI를 사용하여 로컬에서 SQL 워크플로를 개발할 수 있습니다.
Dataform의 데이터 변환 프로세스
Dataform의 데이터 변환 워크플로는 다음과 같습니다.
- Dataform을 사용하여 코드를 관리할 저장소를 만들 수 있습니다.
- Dataform을 사용하여 개발용 작업공간을 만들 수 있습니다.
- Dataform을 사용하여 개발 작업공간에서 SQL 워크플로를 개발할 수 있습니다.
- Dataform은 Dataform 코어를 SQL로 컴파일합니다.
- Dataform은 종속 항목 트리를 실행합니다.
Dataform을 사용하여 코드를 관리할 저장소를 만들 수 있습니다.
Dataform 저장소에서 SQL의 확장 프로그램인 Dataform Core를 사용하여 워크플로를 정의하는 SQLX 파일을 작성합니다. Dataform 저장소는 버전 제어를 지원합니다. Dataform 저장소를 서드 파티 Git 제공업체에 연결할 수 있습니다.
Dataform을 통해 개발용 작업공간을 만들 수 있습니다.
Dataform Core 개발을 위해 Dataform 저장소 내에 개발 작업공간을 만들 수 있습니다. 개발 작업공간에서 저장소를 변경하고, 컴파일하고, 테스트하고, Git을 통해 기본 저장소로 푸시할 수 있습니다.
Dataform을 사용하여 개발 작업공간에서 Dataform Core를 개발할 수 있습니다.
개발 작업공간에서 테이블, 종속 항목, 변환 로직을 정의하고 문서화하여 SQL 워크플로를 빌드할 수 있습니다. JavaScript에서 작업을 구성할 수도 있습니다.
Dataform이 Dataform Core를 컴파일합니다.
컴파일 중 Dataform은 다음 작업을 수행합니다.
- Dataform 코어를 표준 SQL의 SQL 워크플로로 컴파일합니다.
CREATE TABLE
또는INSERT
와 같은 상용구 SQL 문을 쿼리 구성에 따라 코드에 추가합니다.- JavaScript를 SQL로 트랜스파일(소스 간 컴파일)합니다.
- 종속 항목을 해결하고 누락된 종속 항목이나 순환 종속 항목을 포함한 오류를 확인합니다.
- BigQuery에서 실행할 모든 작업의 종속 항목 트리를 빌드합니다.
실시간으로 디버깅하려면 개발 작업공간의 대화형 그래프에서 프로젝트의 컴파일된 SQL 워크플로를 검사할 수 있습니다.
Dataform은 인터넷 액세스 없이 V8 샌드박스 환경에서 코드를 컴파일합니다. 컴파일 중에는 외부 API 호출과 같은 추가 작업을 수행할 수 없습니다.
Dataform은 종속 항목 트리를 실행합니다.
BigQuery에서 Dataform은 다음 작업을 수행합니다.
- 종속 항목 트리 순서에 따라 SQL 명령어를 실행합니다.
- 테이블 및 뷰에 대한 어설션 쿼리를 실행하여 데이터 정확성을 확인합니다.
- 정의한 다른 SQL 작업을 실행합니다.
실행 후에는 모든 분석 목적으로 테이블과 뷰를 사용할 수 있습니다.
로그 보기하여 생성된 테이블, 어설션 통과 또는 실패, 각 작업이 완료되는 데 걸린 시간, 기타 정보를 확인할 수 있습니다. 또한 BigQuery에서 실행된 정확한 SQL 코드를 확인할 수 있습니다.
Dataform 모델링 프레임워크
Dataform은 Dataform Core와 Dataform CLI로 구성되는 Google Cloud 외부에서 사용할 수 있는 오픈소스 데이터 모델링 프레임워크를 제공합니다.
다음 단계
- Dataform 기능에 대한 자세한 내용은 Dataform 기능 개요를 참조하세요.
- Dataform Core에 대한 자세한 내용은 Dataform Core 개요를 참조하세요.
- Dataform CLI에 대한 자세한 내용은 Dataform CLI 사용을 참조하세요.