Dataform 개요

이 문서에서는 Dataform 개념 및 프로세스를 소개합니다.

Dataform은 데이터 분석가가 BigQuery에서 데이터 변환을 위해 복잡한 SQL 워크플로를 개발, 테스트, 버전 제어, 예약할 수 있는 서비스입니다.

Dataform을 사용하면 데이터 통합을 위해 추출, 로드, 변환(ELT) 프로세스에서 데이터 변환을 관리할 수 있습니다. 원시 데이터를 소스 시스템에서 추출하여 BigQuery에 로드한 후 Dataform을 사용하여 잘 정의되고 테스트되고 문서화된 데이터 테이블 제품군으로 변환할 수 있습니다.

Dataform을 사용하면 다음 데이터 변환 작업을 수행할 수 있습니다.

  • 데이터 변환을 위한 SQL 워크플로를 개발하고 실행합니다.
  • Git를 통해 SQL 워크플로 개발에 대해 팀원과 공동작업합니다.
  • 다수의 테이블과 종속 항목을 관리합니다.
  • 소스 데이터를 선언하고 테이블 종속 항목을 관리합니다.
  • SQL 워크플로의 종속 항목 트리 시각화를 봅니다.
  • 중앙 저장소의 SQL 코드로 데이터를 관리합니다.
  • JavaScript에서 코드를 재사용합니다.
  • 소스 및 출력 테이블의 품질 테스트로 데이터 정확성을 검증합니다.
  • 버전 제어 SQL 코드
  • SQL 코드 내에서 데이터 테이블을 문서화합니다.

Dataform은 현재 고객 관리 암호화 키(CMEK) 및 VPC 서비스 제어를 지원하지 않습니다. Dataform을 사용하려면 VPC 서비스 제어 경계에서 BigQuery 리소스를 제외해야 합니다. 또는 Dataform CLI를 사용하여 로컬에서 SQL 워크플로를 개발할 수 있습니다.

Dataform의 데이터 변환 프로세스

Dataform의 데이터 변환 워크플로는 다음과 같습니다.

  1. Dataform을 사용하여 코드를 관리할 저장소를 만들 수 있습니다.
  2. Dataform을 사용하여 개발용 작업공간을 만들 수 있습니다.
  3. Dataform을 사용하여 개발 작업공간에서 SQL 워크플로를 개발할 수 있습니다.
  4. Dataform은 Dataform 코어를 SQL로 컴파일합니다.
  5. Dataform은 종속 항목 트리를 실행합니다.

Dataform을 사용하여 코드를 관리할 저장소를 만들 수 있습니다.

Dataform 저장소에서 SQL의 확장 프로그램인 Dataform Core를 사용하여 워크플로를 정의하는 SQLX 파일을 작성합니다. Dataform 저장소는 버전 제어를 지원합니다. Dataform 저장소를 서드 파티 Git 제공업체에 연결할 수 있습니다.

Dataform을 통해 개발용 작업공간을 만들 수 있습니다.

Dataform Core 개발을 위해 Dataform 저장소 내에 개발 작업공간을 만들 수 있습니다. 개발 작업공간에서 저장소를 변경하고, 컴파일하고, 테스트하고, Git을 통해 기본 저장소로 푸시할 수 있습니다.

Dataform을 사용하여 개발 작업공간에서 Dataform Core를 개발할 수 있습니다.

개발 작업공간에서 테이블, 종속 항목, 변환 로직을 정의하고 문서화하여 SQL 워크플로를 빌드할 수 있습니다. JavaScript에서 작업을 구성할 수도 있습니다.

Dataform이 Dataform Core를 컴파일합니다.

컴파일 중 Dataform은 다음 작업을 수행합니다.

  • Dataform 코어를 표준 SQL의 SQL 워크플로로 컴파일합니다.
  • CREATE TABLE 또는 INSERT와 같은 상용구 SQL 문을 쿼리 구성에 따라 코드에 추가합니다.
  • JavaScript를 SQL로 트랜스파일(소스 간 컴파일)합니다.
  • 종속 항목을 해결하고 누락된 종속 항목이나 순환 종속 항목을 포함한 오류를 확인합니다.
  • BigQuery에서 실행할 모든 작업의 종속 항목 트리를 빌드합니다.

실시간으로 디버깅하려면 개발 작업공간의 대화형 그래프에서 프로젝트의 컴파일된 SQL 워크플로를 검사할 수 있습니다.

Dataform은 인터넷 액세스 없이 V8 샌드박스 환경에서 코드를 컴파일합니다. 컴파일 중에는 외부 API 호출과 같은 추가 작업을 수행할 수 없습니다.

Dataform은 종속 항목 트리를 실행합니다.

BigQuery에서 Dataform은 다음 작업을 수행합니다.

  • 종속 항목 트리 순서에 따라 SQL 명령어를 실행합니다.
  • 테이블 및 뷰에 대한 어설션 쿼리를 실행하여 데이터 정확성을 확인합니다.
  • 정의한 다른 SQL 작업을 실행합니다.

실행 후에는 모든 분석 목적으로 테이블과 뷰를 사용할 수 있습니다.

로그 보기하여 생성된 테이블, 어설션 통과 또는 실패, 각 작업이 완료되는 데 걸린 시간, 기타 정보를 확인할 수 있습니다. 또한 BigQuery에서 실행된 정확한 SQL 코드를 확인할 수 있습니다.

Dataform 모델링 프레임워크

Dataform은 Dataform CoreDataform CLI로 구성되는 Google Cloud 외부에서 사용할 수 있는 오픈소스 데이터 모델링 프레임워크를 제공합니다.

다음 단계