바로 이동

데이터 레이크란?

데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소입니다. 데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리 할 수 있습니다.

Google Cloud에서 데이터 레이크 현대화에 대해 자세히 알아보세요.

시작할 준비가 되셨나요? 신규 고객에게는 Google Cloud에 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

데이터 레이크 개요

데이터 레이크는 확장 가능하고 안전한 플랫폼을 제공하며, 기업에서는 이를 통해 온프레미스, 클라우드, 에지 컴퓨팅 시스템 등을 가리지 않고 모든 시스템의 데이터를 속도 제한 없이 수집할 수 있을 뿐 아니라, 유형이나 양에 상관없이 모든 데이터를 고품질로 저장하고, 실시간 모드나 일괄 처리 모드로 데이터를 처리하며, SQL, Python, R 등의 언어와 타사 데이터 또는 분석 애플리케이션을 사용하여 데이터를 분석할 수 있습니다.

데이터 레이크와 데이터 웨어하우스를 비교하자면 데이터 레이크는 기존에는 없던 기술이라고 정의할 수 있습니다. 데이터 레이크는 단순한 스토리지가 아니며 데이터 웨어하우스와는 다릅니다.

데이터 레이크와 데이터 웨어하우스는 모두 데이터를 일정 용량으로 저장하지만 각각 다른 용도에 맞게 최적화되어 있습니다. 이 두 가지는 양자택일해야 하는 도구가 아니라 상호 보완적인 도구임을 고려하면 기업에서는 이 두 가지가 다 필요할 수 있습니다. 비교하자면, 데이터 웨어하우스는 대체로 월별 판매 보고서, 지역별 판매 내역, 웹사이트 트래픽과 같이 비즈니스 관행에서 일반적으로 사용되는 반복적인 보고 및 분석 유형에 적합합니다.

Google Cloud로 비즈니스 문제 해결

신규 고객에게는 Google Cloud에 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
시작하기
Google Cloud 영업 전문가에게 고유한 문제에 대해 자세히 논의해 보세요.
문의하기

데이터 레이크의 필요성

회사에 데이터 레이크가 필요한지 결정할 때는 작업 중인 데이터의 유형, 데이터로 수행하려는 작업, 데이터 수집 프로세스의 복잡성, 데이터 관리 및 거버넌스 전략은 물론이고 조직의 기존 도구 및 역량까지 고려해야 합니다.

오늘날 기업들은 다른 관점에서도 데이터 레이크의 가치를 보기 시작했습니다. 데이터 레이크의 가치는 단순히 고품질 데이터를 저장하는 데 있는 것이 아닙니다. 데이터 레이크를 사용하면 그 어느 때보다 많은 컨텍스트를 통해 분석 실험을 가속화할 수 있으므로 비즈니스 상황을 보다 깊이 있게 파악할 수 있다는 이점이 있습니다.

주로 대량의 빅데이터 처리를 목적으로 하는 회사에서는 일반적으로 원시 데이터를 변환하지 않은 채 일괄 처리나 스트리밍을 통해 데이터 레이크로 이동할 수 있습니다. 기업은 데이터 레이크를 통해 다음과 같은 이점을 얻을 수 있습니다.

  • 총 소유 비용 절감
  • 데이터 관리 간소화
  • 인공지능 및 머신러닝 통합에 대비
  • 분석 속도 향상
  • 보안 및 거버넌스 향상

 

주요 데이터 레이크 사용 사례

데이터 레이크는 분석 및 인공지능의 기반을 제공하기 때문에 업종을 불문하고 모든 기업에서 데이터 레이크를 사용하여 수익을 늘리면서 비용은 절감하고 위험을 줄이고 있습니다.

미디어 및 엔터테인먼트

스트리밍 음악, 라디오 및 팟캐스트를 제공하는 회사에서는 추천 시스템을 개선하면 사용자의 서비스 이용량이 늘고 그에 따라 광고 매출도 늘어나므로 수익을 늘릴 수 있습니다.

전자통신

다국적 전자통신 회사에서는 고객 이탈을 줄이는 이탈 경향 모델을 구축하여 비용을 절감할 수 있습니다.

금융 서비스

투자 회사에서는 데이터 레이크를 사용하여 머신러닝을 강화할 수 있으므로 실시간 시장 데이터가 확보되는 즉시 포트폴리오 위험을 관리할 수 있습니다.

Google Cloud는 기존 애플리케이션, 기술, IT 투자와 통합되는 데이터 레이크를 구축할 수 있도록 지원하는 다양한 자동 확장 서비스를 제공합니다. 여기에는 데이터 수집을 위한 DataflowCloud Data Fusion, 저장을 위한 Cloud Storage, 데이터 및 분석 처리를 위한 DataprocBigQuery 등이 포함됩니다.