데이터 통합이란?

빅데이터, 사물 인터넷(IoT), Software as a service (SaaS), 클라우드 활동 등으로 인해 데이터 소스의 수가 폭발적으로 증가하고 전 세계에 존재하는 데이터의 양이 엄청나게 증가했습니다. 이전에는 이러한 데이터의 대부분은 독립된 사일로나 별도의 데이터 저장소에 수집 및 저장되어 왔습니다. 데이터 통합은 여러 소스의 데이터를 탐색, 이동, 결합하여 유용한 정보를 도출하고 머신러닝 및 고급 분석을 지원하는 프로세스입니다.  

운영을 개선하고, 고객만족도를 높이고, 점점 더 디지털화되는 세상에서 경쟁력을 갖추기 위해서는 모든 데이터에 대한 통계가 필요하기 때문에 디지털 혁신 전략을 모색하고 있는 조직이라면 데이터 통합이 특히 중요합니다.

Google Cloud의 데이터 통합 솔루션은 다음과 같은 느슨하게 결합되었지만 긴밀하게 통합된 서비스 모음입니다.

  • Cloud Data Fusion은 완전 관리형의 클라우드 네이티브 데이터 통합 서비스로, 사용자가 ETL/ELT 데이터 파이프라인을 효율적으로 빌드하고 관리하도록 지원합니다.
  • Cloud Composer: 엔드 투 엔드 데이터 및 프로세스 수명 주기를 관리 및 조정할 수 있도록 Apache Airflow를 기반으로 구축된 완전 관리형 워크플로 조정 서비스입니다.
  • Datastream: 사용하기 쉬운 서버리스 변경 데이터 캡처 및 복제 서비스입니다.
  • Dataplex: 분산된 데이터를 대규모로 탐색, 관리, 모니터링, 제어하는 지능형 데이터 패브릭입니다.
  • Dataflow는 지연 시간, 처리 시간, 비용을 최소화하는 완전 관리형 스트리밍 분석 서비스입니다.
  • Pub/Sub: 스트리밍 분석과 데이터 통합 파이프라인에 사용되는 확장 가능한 비동기 메시지 서비스입니다.
  • Dataproc: 일괄 처리, 쿼리, 스트리밍, 머신러닝을 위한 완전 관리형 Spark 및 Hadoop 서비스입니다.

데이터 통합의 정의

데이터 통합은 출처가 다양한 데이터를 단일화되고 보다 가치 있는 데이터 뷰로 통합하여 기업에서 보다 빠르게 현명한 결정을 내릴 수 있도록 하는 프로세스입니다.  

데이터 통합을 통해 모든 종류(구조화, 비구조화, 일괄 처리, 스트리밍)의 데이터를 취합하여 인벤토리 데이터베이스의 기본 쿼리에서 복잡한 예측 분석에 이르기까지 모든 작업을 수행할 수 있습니다.

데이터 통합의 도전과제

데이터 통합 플랫폼 사용의 어려움

숙련된 데이터 전문가는 찾기가 어렵고 비용도 많이 들지만 일반적으로 대부분의 데이터 통합 플랫폼을 배포하는 데 필수적입니다. 비즈니스 분석가가 비즈니스 결정을 내리기 위해 데이터에 액세스해야 하는 경우 이러한 전문가에게 의존하는 경우가 많습니다. 엔터프라이즈 소스의 데이터를 통합하는 데 일반적으로 6개월이 걸리기 때문에 데이터 분석의 가치를 더하는 시간이 지연됩니다.

대규모 데이터 관리의 어려움

조직은 고품질 데이터를 쉽게 검색하고 분석에 사용할 수 있도록 하기 위해 애쓰고 있습니다. 데이터 원본과 데이터 사일로가 증가함에 따라 조직은 고급 분석을 위해 사일로 간에 데이터를 이동 및 복제하거나, 데이터를 분산된 상태로 두되 민첩성을 제한하는 것 사이에서 절충점을 찾아야 합니다.

여러 전송 스타일을 통한 데이터 통합

단일 플랫폼에서 일괄, 스트리밍, 이벤트와 같은 여러 전송 스타일을 사용하려는 고객의 수요가 증가하고 있습니다. 비즈니스의 더 많은 측면이 디지털 트레이스를 생성함에 따라 조직은 실시간 데이터 통합 및 분석을 활용하여 비즈니스 성과를 향상할 방법을 모색하고 있습니다. 

데이터 시맨틱스 문제

의미가 동일한 여러 버전의 데이터가 구성되어 있거나 형식이 다르게 지정되어 있을 수 있습니다. 예를 들어 날짜가 dd/mm/yy 또는 월, 일, 연도 형식의 숫자로 저장되어 있을 수 있습니다. ETL의 '변환' 요소와 마스터 데이터 관리 도구는 이러한 문제를 해결해 줍니다.

데이터 통합 인프라에 대한 자본 지출 및 운영 지출 과다

엔터프라이즈급 데이터 통합 이니셔티브에 필요한 인프라를 조달, 배포, 유지보수 및 관리할 때는 자본 지출과 운영 지출이 모두 추가로 발생합니다. 관리형 서비스로서 제공되는 클라우드 기반 데이터 통합은 이 비용 문제를 직접적으로 해결합니다.

애플리케이션과 긴밀하게 결합된 데이터

이전에는 데이터가 특정 애플리케이션에 너무 얽매이고 의존적이어서 비즈니스의 다른 부문에서는 검색 및 사용이 불가능했습니다. 현재는 애플리케이션 계층과 데이터 계층이 분리되어 데이터를 보다 유연하게 사용할 수 있습니다.

Google Cloud로 비즈니스 문제 해결

신규 고객에게는 Google Cloud에서 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
Google Cloud 영업 전문가와 고유한 문제에 대해 자세히 논의해 보세요.

데이터 통합 도구란?

데이터 통합 플랫폼에는 일반적으로 다음과 같은 다양한 도구가 포함되어 있습니다.

  • 데이터 수집 도구: 데이터를 확보하고 가져와서 즉시 사용하거나 나중에 사용하기 위해 저장할 수 있습니다.
  • ETL 도구: ETL은 가장 일반적인 데이터 통합 방법인 추출(Extract), 변환(Transform), 로드(Load)를 나타냅니다. 
  • 데이터 카탈로그: 기업의 여러 데이터 사일로에 흩어져 있는 데이터 애셋을 찾고 인벤토리를 작성하는 데 유용합니다.
  • 데이터 거버넌스 도구: 데이터의 가용성, 보안, 사용성 및 무결성을 보장하는 도구입니다.
  • 데이터 정리 도구: 더티 데이터를 교체, 수정 또는 삭제 방법으로 정리하는 도구입니다.
  • 데이터 마이그레이션 도구: 이 도구는 컴퓨터, 스토리지 시스템 또는 애플리케이션 형식 간에 데이터를 이전합니다.
  • 마스터 데이터 관리 도구: 기업이 공통된 데이터 정의를 준수하고 단일 정보 소스를 실현할 수 있도록 지원하는 도구입니다.  
  • 데이터 커넥터: 데이터베이스 간에 데이터를 이동하며 변환을 수행할 수도 있습니다.

데이터 통합의 용도

데이터 통합은 일반적으로 다음 작업을 수행하는 데 사용됩니다.

인공지능(AI) 및 머신러닝(ML)

데이터 통합은 ML 모델을 구동하는 데 필요한 결합된 고품질 데이터를 제공하여 AI 및 ML의 기반이 됩니다. 

데이터 웨어하우징

데이터 통합을 통해 다양한 소스의 데이터를 하나의 데이터 웨어하우스에 결합하여 비즈니스 목적으로 분석할 수 있습니다. 

데이터 레이크 개발 

데이터 통합은 데이터에 대한 고급 분석과 AI를 수행하여 가치를 쉽게 추출할 수 있도록 사일로화된 온프레미스 플랫폼에서 데이터 레이크로 데이터를 이동합니다.

클라우드 마이그레이션 및 데이터베이스 복제

데이터 통합은 클라우드로의 원활한 전환을 보장하는 핵심 부분입니다. 데이터 전송 서비스, 데이터 커넥터, CDC 도구, ETL 도구는 모두 조직이 비즈니스 연속성을 유지하면서 클라우드로 이전할 수 있는 다양한 옵션을 제공합니다.  

IoT

데이터 통합은 여러 IoT 소스의 데이터를 한곳에 수집하여 데이터의 가치를 실현하는 데 유용합니다.

실시간, 지능형

스트리밍 및 이벤트 수집과 같은 데이터 통합 기능은 실시간 예측 및 추천과 같은 사용 사례를 활성화합니다.  

다음 단계 수행

$300의 무료 크레딧과 20여 개의 항상 무료 제품으로 Google Cloud에서 빌드하세요.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
콘솔
Google Cloud