Dataform 개요

이 문서에서는 Dataform 개념 및 프로세스를 소개합니다.

Dataform은 데이터 분석가가 BigQuery에서 데이터 변환을 위해 복잡한 SQL 워크플로를 개발, 테스트, 버전 제어, 예약할 수 있는 서비스입니다.

Dataform을 사용하면 데이터 통합을 위해 추출, 로드, 변환(ELT) 프로세스에서 데이터 변환을 관리할 수 있습니다. 원시 데이터를 소스 시스템에서 추출하여 BigQuery에 로드한 후 Dataform을 사용하여 잘 정의되고 테스트되고 문서화된 데이터 테이블 제품군으로 변환할 수 있습니다.

Dataform을 사용하면 다음 데이터 변환 작업을 수행할 수 있습니다.

  • 데이터 변환을 위한 SQL 워크플로를 개발하고 실행합니다.
  • Git를 통해 SQL 워크플로 개발에 대해 팀원과 공동작업합니다.
  • 다수의 테이블과 종속 항목을 관리합니다.
  • 소스 데이터를 선언하고 테이블 종속 항목을 관리합니다.
  • SQL 워크플로의 종속 항목 트리 시각화를 봅니다.
  • 중앙 저장소의 SQL 코드로 데이터를 관리합니다.
  • JavaScript에서 코드를 재사용합니다.
  • 소스 및 출력 테이블에서 품질 테스트를 통해 데이터 정확성을 테스트합니다.
  • SQL 코드 버전을 제어합니다.
  • SQL 코드 내에서 데이터 테이블을 문서화합니다.

Dataform의 데이터 변환 프로세스

Dataform의 데이터 변환 워크플로는 다음과 같습니다.

  1. Dataform을 사용하여 코드를 관리할 저장소를 만들 수 있습니다.
  2. Dataform을 사용하여 개발용 작업공간을 만들 수 있습니다.
  3. Dataform을 사용하여 개발 작업공간에서 SQL 워크플로를 개발할 수 있습니다.
  4. Dataform은 Dataform 코어를 SQL로 컴파일합니다.
  5. Dataform은 종속 항목 트리를 실행합니다.

Dataform을 사용하여 코드를 관리할 저장소를 만들 수 있습니다.

Dataform 저장소에서 SQL의 확장 프로그램인 Dataform Core를 사용하여 워크플로를 정의하는 SQLX 파일을 작성합니다. Dataform 저장소는 버전 제어를 지원합니다. Dataform 저장소를 서드 파티 Git 제공업체에 연결할 수 있습니다.

Dataform을 사용하여 개발용 작업공간을 만들 수 있습니다.

Dataform Core 개발을 위해 Dataform 저장소 내에 개발 작업공간을 만들 수 있습니다. 개발 작업공간에서 저장소를 변경하고, 컴파일하고, 테스트하고, Git을 통해 기본 저장소로 푸시할 수 있습니다.

Dataform을 사용하여 개발 작업공간에서 Dataform Core를 개발할 수 있습니다.

개발 작업공간에서 테이블, 종속 항목, 변환 로직을 정의하고 문서화하여 SQL 워크플로를 빌드할 수 있습니다. JavaScript에서 작업을 구성할 수도 있습니다.

Dataform이 Dataform Core를 컴파일합니다.

컴파일 중 Dataform은 다음 작업을 수행합니다.

  • Dataform Core를 표준 SQL의 SQL 워크플로로 컴파일합니다.
  • CREATE TABLE 또는 INSERT와 같은 상용구 SQL 문을 쿼리 구성과 함께 코드 인라인에 추가합니다.
  • JavaScript를 SQL로 트랜스파일(소스 간 컴파일)합니다.
  • 종속 항목을 해결하고 누락된 종속 항목이나 순환 종속 항목을 포함한 오류를 확인합니다.
  • BigQuery에서 실행할 모든 작업의 종속 항목 트리를 빌드합니다.

Dataform 컴파일은 컴파일 일관성을 위해 기본 제공됩니다. 즉, 동일한 코드가 매번 동일한 SQL 컴파일 결과로 컴파일됩니다. Dataform은 인터넷 액세스 없이 샌드박스 환경에서 코드를 컴파일합니다. 컴파일 중에는 외부 API 호출과 같은 추가 작업을 수행할 수 없습니다.

실시간으로 디버깅하려면 개발 작업공간의 대화형 그래프에서 프로젝트의 컴파일된 SQL 워크플로를 검사할 수 있습니다.

Dataform이 종속 항목 트리를 실행합니다.

BigQuery에서 Dataform은 다음 작업을 수행합니다.

  • 종속 항목 트리 순서에 따라 SQL 명령어를 실행합니다.
  • 테이블 및 뷰에 대한 어설션 쿼리를 실행하여 데이터 정확성을 확인합니다.
  • 정의한 다른 SQL 작업을 실행합니다.

실행 후에는 모든 분석 목적으로 테이블과 뷰를 사용할 수 있습니다.

로그 보기하여 생성된 테이블, 어설션 통과 또는 실패, 각 작업이 완료되는 데 걸린 시간, 기타 정보를 확인할 수 있습니다. 또한 BigQuery에서 실행된 정확한 SQL 코드를 확인할 수 있습니다.

Dataform 모델링 프레임워크

Dataform은 Dataform CoreDataform CLI로 구성되는 Google Cloud 외부에서 사용할 수 있는 오픈소스 데이터 모델링 프레임워크를 제공합니다.

다음 단계