빅데이터란 무엇인가요?

빅데이터는 일반적으로 기존의 관계형 또는 모놀리식 데이터베이스 시스템으로 저장, 관리, 분석하는 데 너무 많은 비용이 소요되는 데이터를 의미합니다. 대개 이러한 시스템은 구조화되지 않은 데이터(예: 이미지, 텍스트, 동영상)를 저장하거나 실시간에 가깝게 빠른 속도로 변화하는 데이터를 처리하거나 대량(페타바이트급 규모)의 데이터 볼륨을 지원하기 위해 확장해야 할 때 유연성이 부족하고 비용 효율적이지 못합니다.

이런 이유로 지난 몇 년 동안 빅데이터를 관리하고 처리하는 새로운 방법으로 Apache Hadoop 및 NoSQL 데이터베이스 시스템 등을 도입하는 것을 심심찮게 볼 수 있었습니다. 하지만 이러한 방법은 온프레미스 환경에서 배포, 관리, 사용하기에 복잡한 경우가 많습니다.

빅데이터의 출현 배경은 무엇인가요?

대부분의 고객 데이터가 정확하게 구조화된(예: 은행) 트랜잭션으로 분류되던 과거와 달리, 오늘날 조직에서는 엄청난 양의 구조화되지 않은 온라인 고객 상호작용 데이터가 매일 생성되고 있으며, 몇 년 전과 비교해 그 양이 크게 증가했습니다. 수십억 개의 상호 연결된 기기와 센서로 구성된 글로벌 네트워크를 의미하는 용어인 '사물 인터넷'이 최근 등장하면서 텍스트, 동영상, 이미지, 오디오 형식 데이터의 볼륨이 폭발적으로 늘어났습니다. 마지막으로, 관련 규정이 적용되는 일부 업계에서는 일반적으로 보관처리하는 데이터를 규정 준수를 위해 사용해야 하는 경우가 많아졌습니다.

빅데이터가 중요한 이유는 무엇인가요?

업계와 규모를 불문하고 기업이 성공을 거두려면 데이터 속에서 끊임없이 비즈니스 가치를 찾아낼 수 있어야 합니다. 소매, 광고, 금융 서비스와 같은 일부 업계에서는 빅데이터 기술이 생존의 열쇠가 되었고, 이러한 업계는 지금도 계속 증가하고 있습니다.

데이터 분석은 더 많은 데이터를 이용할 때 더 가치 있는 정보를 제공합니다. 따라서 여러 업계의 조직에서는 빅데이터를 중요한 비즈니스 정보를 발견하기 위한 귀중한 자원으로 인식하게 되었습니다. 또한 더 많은 데이터로 '학습'한 머신러닝 모델의 효율성이 높기 때문에 빅데이터는 머신러닝과 상호 보완적인 관계입니다.

내 데이터가 '빅데이터'인지 어떻게 알 수 있나요?

빅데이터는 '막대한 양'의 '데이터'를 뜻합니다. 많은 기업의 데이터 볼륨이 아직 페타바이트급 규모에 도달하지는 않았지만, 일단 '데이터'라는 측면에서 빅데이터의 두 가지 조건 중 하나를 만족하는 셈입니다. 또 확실한 것은 시간이 지날수록 데이터는 기하급수적으로 증가할 것이란 사실입니다. 그렇게 보자면 모든 '빅데이터'는 '소량의 데이터'로 시작합니다.

빅데이터에 가장 적합한 플랫폼이 클라우드인 이유는 무엇인가요?

클라우드 컴퓨팅은 온프레미스 배포보다 확장성과 유연성이 뛰어나고 안전하며 비용 효과적인 방식으로 데이터 스토리지와 처리, 분석을 제공합니다. 데이터 볼륨이 폭발적으로 증가할 때 스토리지와 처리 리소스를 필요에 따라 손쉽게 이용하고 데이터에서 가치를 찾아내려면 이러한 기술이 반드시 필요합니다. 또한 빅데이터 분석과 머신러닝을 이제 막 시작했으며 온프레미스 빅데이터 시스템의 잠재적 복잡성을 배제하려는 조직에게 클라우드는 사용하는 만큼만 지불하는 합리적인 방식으로 Google BigQuery, Google Cloud ML Engine 등의 관리형 서비스를 시범 사용해 볼 수 있는 기회를 제공합니다.

자세히 알아보기: