오늘날의 데이터 기반 환경에서 조직은 방대한 양의 정보를 관리하고 분석하는 보다 효율적인 방법을 지속적으로 모색하고 있습니다. ELT(추출, 로드, 변환) 프로세스는 특히 클라우드 환경에 적합한 데이터 통합에 대한 최신 접근 방식을 나타냅니다. ELT는 다양한 데이터 세트를 처리하는 데 있어 속도, 유연성, 확장성 측면에서 확실한 이점을 제공하므로 데이터 아키텍처, 데이터 엔지니어링 또는 분석과 관련된 모든 사람에게 중요한 개념입니다. 이 접근 방식은 데이터 변환이 발생하는 시점과 위치를 바꿔 데이터 활용의 새로운 가능성을 열어줍니다.
ELT는 추출(Extract), 로드(Load), 변환(Transform)을 나타냅니다. 데이터가 다양한 소스 시스템에서 먼저 추출되는 데이터 파이프라인 모델입니다. 그런 다음 원시 데이터를 별도의 스테이징 영역에서 변환하는 대신 데이터 레이크 또는 클라우드 데이터 웨어하우스와 같은 대상 데이터 스토어에 직접 로드합니다. 데이터가 대상 시스템에 로드된 후에만 변환이 적용됩니다.
이 순서는 ELT를 기존 ETL(추출, 변환, 로드)과 차별화하는 요소이며 클라우드 기반 아키텍처에서 ELT 채택이 증가하는 주요 이유입니다.
ELT 프로세스 흐름은 최신 데이터 스토리지 및 처리 플랫폼의 성능과 확장성을 활용합니다. 각 구성요소를 자세히 살펴보겠습니다.
ELT 프로세스는 로드 전에 변환이 고정되지 않기 때문에 유연성을 제공합니다. 예를 들어 데이터 과학자는 원시 데이터에 액세스하여 예기치 못한 패턴을 탐색하거나 임시 분석을 수행할 수 있으며, 비즈니스 인텔리전스팀은 보고를 위해 선별되고 변환된 데이터 세트를 빌드할 수 있습니다.
ELT 접근 방식은 특히 대규모 데이터 볼륨과 다양한 데이터 유형을 다루는 환경에서 다음과 같은 몇 가지 잠재적 이점을 제공합니다.
ELT는 여러 이점을 제공하지만 조직에서 해결해야 할 몇 가지 고려사항도 있습니다.
이러한 문제를 선제적으로 해결하면 조직이 ELT 패러다임의 이점을 최대한 활용하는 데 도움이 될 수 있습니다.
적절한 데이터 통합 전략을 선택하려면 ELT와 기존 ETL(추출, 변환, 로드) 프로세스 간의 차이점을 이해하는 것이 중요합니다. 두 방법의 가장 큰 차이점은 변환 단계가 발생하는 시점과 수행되는 위치입니다.
기능 | ELT(추출, 로드, 변환) | ETL(추출, 변환, 로드) |
작업 순서 | 추출, 로드, 변환 | 추출, 변환, 로드 |
변환 위치 | 대상 데이터 스토어(데이터 웨어하우스/레이크) 내 | 별도의 스테이징 영역 또는 ETL 도구 환경에서 |
대상에 로드된 데이터 | 변환되지 않은 원시 데이터 | 정리, 구조화, 변환된 데이터 |
처리 성능 | 대상 데이터 스토어의 성능 활용 | 전용 ETL 엔진 또는 스테이징 서버에 의존 |
데이터 수집 속도 | 초기에 데이터를 로드하는 것이 일반적으로 빠름 | 사전 변환 처리로 인해 느릴 수 있음 |
새로운 용도에 대한 유연성 | 원시 데이터를 다시 변환할 수 있으므로 높은 수준 | 변환이 사전 정의되어 있으므로 더 낮음 |
스키마 처리 | 읽기 시 스키마에 적합 | 주로 쓰기 시 스키마에 의존 |
데이터 유형 적합성 | 정형 데이터, 반정형 데이터, 비정형 데이터에 적합 | 정형 데이터 및 일부 반정형 데이터에 적합 |
리소스 사용률 | 확장 가능한 클라우드 데이터 웨어하우스 사용 최적화 | 변환을 위한 별도의 인프라가 필요할 수 있음 |
기능
ELT(추출, 로드, 변환)
ETL(추출, 변환, 로드)
작업 순서
추출, 로드, 변환
추출, 변환, 로드
변환 위치
대상 데이터 스토어(데이터 웨어하우스/레이크) 내
별도의 스테이징 영역 또는 ETL 도구 환경에서
대상에 로드된 데이터
변환되지 않은 원시 데이터
정리, 구조화, 변환된 데이터
처리 성능
대상 데이터 스토어의 성능 활용
전용 ETL 엔진 또는 스테이징 서버에 의존
데이터 수집 속도
초기에 데이터를 로드하는 것이 일반적으로 빠름
사전 변환 처리로 인해 느릴 수 있음
새로운 용도에 대한 유연성
원시 데이터를 다시 변환할 수 있으므로 높은 수준
변환이 사전 정의되어 있으므로 더 낮음
스키마 처리
읽기 시 스키마에 적합
주로 쓰기 시 스키마에 의존
데이터 유형 적합성
정형 데이터, 반정형 데이터, 비정형 데이터에 적합
정형 데이터 및 일부 반정형 데이터에 적합
리소스 사용률
확장 가능한 클라우드 데이터 웨어하우스 사용 최적화
변환을 위한 별도의 인프라가 필요할 수 있음
ELT는 Google Cloud에서 데이터 통합을 위해 권장하는 패턴입니다. ELT에는 소스 시스템에서 데이터를 추출하고 BigQuery에 로드한 다음 분석을 위해 원하는 형식으로 변환하는 작업이 포함됩니다. 데이터 웨어하우스에 로드하기 전에 데이터를 변환하는 ETL(추출, 변환, 로드)과 달리 ELT 접근 방식을 사용하면 BigQuery의 모든 기능을 활용하여 데이터 변환을 수행하고 모든 SQL 사용자가 데이터 통합 파이프라인을 효과적으로 개발할 수 있습니다.
ELT와 ETL 중에서 선택하는 것은 특정 사용 사례, 기존 인프라, 데이터 볼륨, 조직의 분석 요구사항에 따라 달라집니다. 많은 최신 데이터 아키텍처에서는 파이프라인의 다른 부분에 ELT와 ETL을 모두 사용하는 하이브리드 접근 방식을 채택하기도 합니다.
ELT 패턴은 다음과 같은 다양한 최신 데이터 시나리오에서 특히 효과적입니다.
클라우드 데이터 웨어하우징
ELT는 Google Cloud의 BigQuery와 같이 대규모 데이터 세트의 변환을 효율적으로 처리할 수 있는 막대한 처리 성능과 확장성을 제공하는 클라우드 데이터 플랫폼에 적합합니다.
빅데이터 분석
방대한 양의 속도가 빠르고 다양한 데이터를 다룰 때 ELT를 사용하면 데이터 레이크 또는 확장 가능한 스토리지로 빠르게 수집할 수 있습니다. 그런 다음 분산 처리 프레임워크를 사용하여 필요에 따라 변환을 적용할 수 있습니다.
데이터 레이크 구현
데이터 레이크는 방대한 양의 원시 데이터를 기본 형식으로 저장하도록 설계되었습니다. ELT 프로세스는 이 원시 데이터를 로드하고 다양한 분석 및 처리 엔진이 이를 변환하고 사용할 수 있습니다.
실시간 또는 거의 실시간 데이터 처리
최신 데이터에 빠르게 액세스해야 하는 사용 사례의 경우 ELT를 통해 로드 단계를 신속하게 진행할 수 있습니다. 그러면 이 데이터의 하위 집합에서 특정한 거의 실시간에 가까운 대시보드 또는 애플리케이션에 대한 변환을 수행할 수 있습니다.
탐색적 데이터 분석 및 데이터 과학
데이터 과학자는 특성 추출, 머신러닝 모델 빌드, 사전 정의된 변환에 구애받지 않는 유용한 정보의 발견을 위해 변환되지 않은 원시 데이터에 액세스하는 것을 선호하는 경우가 많습니다. ELT를 사용하면 원시 데이터를 쉽게 사용할 수 있습니다.
다양한 데이터 소스 통합
구조가 다양한 수많은 서로 다른 시스템의 데이터를 통합할 때 ELT는 모든 데이터를 먼저 중앙 위치에 로드한 다음 변환을 통해 조화시킴으로써 초기 수집을 간소화합니다.
Google Cloud는 ELT 아키텍처를 최적화하는 데 도움이 되는 포괄적인 서비스 제품군을 제공하므로 조직에서 강력하고 확장 가능한 데이터 파이프라인을 빌드할 수 있습니다. 데이터베이스 내 변환에 BigQuery와 같은 서비스의 기능을 사용하는 데 중점을 둡니다.
Google Cloud 서비스가 ELT 패턴에 일반적으로 사용되는 방식은 다음과 같습니다.
Google Cloud의 인프라는 원시 데이터를 위한 확장 가능한 스토리지, 빠른 로드 기능, BigQuery 내 강력한 엔진을 제공하여 변환을 효율적으로 수행함으로써 ELT의 핵심 원칙을 지원합니다. 이를 통해 데이터 엔지니어는 관리형 서버리스 환경 내에서 데이터가 신속하게 배치된 후 특정 분석 요구사항에 따라 정제되는 파이프라인을 빌드할 수 있습니다.