Dataform 정식 버전 발표: BigQuery에서 SQL 파이프라인 개발, 버전 제어, 배포
Guillaume-Henri Huon
Product manager
Lewis Hemens
Engineering manager
*본 아티클의 원문은 2023년 6월 6일 Google Cloud 블로그(영문)에 게재되었습니다.
SQL 파이프라인을 구축하는 데이터팀은 커스텀 프로세스와 인프라를 수동으로 연결하는 데 어려움을 겪고 있으며, 개발 시간이 지연되고 문제 해결에 시간이 소요되며 데이터 분석가들이 프로세스에 기여하지 못하는 경우가 발생하고 있습니다. 이 같은 문제를 해결하는 데 도움이 되기 위해 오늘 Google은 Dataform의 정식 버전을 발표합니다. Dataform을 사용하면 데이터팀이 BigQuery에서 SQL 파이프라인을 개발하고 버전을 제어하며 배포할 수 있습니다. Dataform은 기술 수준에 상관없이 모든 데이터 엔지니어와 데이터 분석가들이 프로덕션 등급의 SQL 파이프라인을 BigQuery에 빌드하는 한편 Git을 사용한 버전 제어, CI/CD, 코드 수명 주기 관리와 같은 소프트웨어 엔지니어링의 권장사항을 따르는 데 도움이 됩니다.
Dataform은 확장 가능한 SQL 파이프라인을 빌드하고 버전을 제어하며 운영할 수 있는 통합된 단일 UI 및 API를 제공합니다. 이 단일 환경에서 데이터 실무자는 새로운 테이블을 더 빨리 개발하고 데이터 품질을 보장하고 최소한의 노력으로 파이프라인을 운영할 수 있게 되어 조직 전반에서 데이터에 보다 쉽게 액세스할 수 있습니다.
BigQuery의 엔드 투 엔드 SQL 파이프라인 환경
데이터 및 분석팀은 Dataform을 사용하여 다음과 같은 작업을 수행할 수 있습니다.
- Dataform 코어를 사용하여 SQL 코드로 복잡한 파이프라인 개발: 오픈소스 프레임워크인 Dataform 코어는 자동화된 종속성 관리, 데이터 품질 테스트, 코드 재사용, 테이블 문서화와 같은 기능을 SQL 개발에 적용시킵니다.
- BigQuery 콘솔을 통해 웹에서 파이프라인 개발: 이때 사용자는 격리된 개별 작업공간에서 작업할 수 있고 파이프라인 종속성을 시각화할 수 있으며 오류를 실시간으로 확인하고 Git으로 코드의 버전을 제어할 수 있습니다.
- SQL 파이프라인 배포: 다양한 실행 환경에서 예약 실행 또는 API 트리거를 통해 배포할 수 있으며 인프라를 관리할 필요가 없습니다.
모든 데이터 실무자를 위한 통합 환경
Dataform을 사용하면 조직 전반의 SQL 파이프라인 개발을 단일 도구와 단일 개발 프로세스로 표준화할 수 있습니다.
데이터팀은 Git, CI/CD, 코드 수명 주기 관리와 같은 소프트웨어 엔지니어링 권장사항에 따라 협업할 수 있습니다.
데이터 엔지니어는 인프라를 관리하지 않고도 개발 전반의 코드 수명 주기와 일정, 스테이징, 운영 실행 환경을 관리할 수 있습니다.
마지막으로 데이터 분석가는 기존 파이프라인에 참여하거나 웹 인터페이스에서 SQL 파이프라인을 개발, 테스트, 버전 관리하여 자체 파이프라인을 관리할 수 있습니다.
고객들의 이야기
"공동작업자가 1,000명이 넘는 회사이다보니 BigQuery 데이터를 관리하는 거버넌스와 표준의 부재로 어려움을 겪었습니다."라고 Hurb의 데이터 및 분석 부문 책임자 루카스 롤림은 말합니다. "Dataform은 데이터팀이 버전 관리, 코드 검토, 커밋 기록과 같은 소프트웨어 개발 권장사항을 적용할 수 있도록 공통된 인터페이스를 제공해주었습니다."
"Dataform를 사용하기 전에는 사내 시스템을 통해 데이터를 변환했는데 회사의 니즈를 충족하기 위해 확장하는 데 어려움이 있었습니다."라고 Intuit Mailchimp의 데이터 엔지니어링 관리자 닐 슈발브는 말합니다. Dataform과 Google Cloud의 최신 Dataform을 채택한 후로 데이터 변환 레이어의 속도를 높이고 대규모 데이터 볼륨의 300개가 넘는 테이블로 확장하는 것이 가능해졌습니다. 또한 Google Cloud-Dataform의 통합으로 테스트가 더 빨라지고 로깅이 더 명확해지며 접근성이 더 확대되어 개발 워크플로의 속도가 빨라졌습니다."
"지난 수년간 OVO의 Path to Zero [탄소 배출] 이니셔티브에서 데이터 과학, 머신러닝, AI의 수요가 급격히 증가하고 있습니다. OVO는 빠르게 성장했고 데이터 과학자들로 구성된 각 팀은 데이터와 머신러닝 파이프라인을 구축하는 작업을 진행했습니다. 새로운 기능을 신속하게 배포하고 고객에게 실질적인 혜택을 제공할 수 있었지만 확장성이 없었습니다."라고 OVO의 데이터 부문 책임자인 케이티 러셀 박사는 말합니다. "Dataform을 채택한 덕분에 유연성이나 개발 속도를 떨어뜨리지 않고도 일관성을 유지할 수 있었습니다. Dataform을 사용하면서 개발 프로세스의 속도가 빨라졌고 품질 문제가 줄었으며 문서화 및 검색 가능성이 향상되었습니다."