AI 시대의 데이터 분석: Google Cloud 데이터 플랫폼의 올해 개선사항
Nic Smith
Head of Product Marketing, Data & Analytics
AI 시대의 데이터 분석: Google Cloud 데이터 플랫폼의 올해 개선사항
*본 아티클의 원문은 11월 4일 Google Cloud 블로그(영문)에 게재되었습니다.
AI는 이미 조직 운영에 지대한 영향을 미치고 있습니다. AI의 힘을 활용하면 어떤 업무를, 어떻게, 누구를 위해 수행하는지가 완전히 달라집니다. 이미 많은 기업이 데이터 활성화 단계를 실행하여 AI로 실제 비즈니스 문제를 해결할 수 있는 수준에 올라와 있습니다.
Google Cloud는 데이터에서 유용한 정보를 얻어 저장하고 변환하기 위한 플랫폼과 도구로 이루어진 강력한 포트폴리오를 갖추고 있으므로 이를 활성화하여 AI를 활용하기만 하면 됩니다. 이 블로그에서는 2023년 데이터 및 AI 클라우드의 주요 혁신 사항을 세 가지 전략 분야로 나누어 정리해 보려고 합니다.
- 모든 데이터 상호 연결 - 모든 위치에서 모든 형식의 정형/비정형 데이터 상호 연결
- 데이터에 AI 활용 - 모든 데이터를 사용해 AI 모델을 안전하고 신속하게 빌드
- 생산성 향상 - 모든 데이터팀의 데이터 분석, 코드 생성, 데이터 워크로드 최적화 작업 지원
11월 13일에 진행된 웹캐스트 온디맨드에 등록하여 BigQuery, 스트리밍 분석, 데이터 레이크, 데이터 통합, 생성형 AI에 대한 Google Cloud의 계획과 투자에 대해 알아보세요.
모든 데이터 상호 연결
데이터는 수십, 수백 개에 이르는 데이터 사일로에 분산되어 있습니다. 클라우드와 온프레미스 시스템 전반에서 새로운 형식(대부분 비정형)의 데이터 워크로드가 증가하고 있습니다. 도구도 너무 많아서 일일이 익히고 번갈아 사용해야 하는 어려움도 있습니다. 이러한 모든 문제를 고려해 보면 AI 프로젝트는 결국 데이터 프로젝트라고 해도 과언이 아닙니다.
Google의 데이터 및 AI 클라우드를 사용하면 데이터를 여러 수준에서 상호 연결할 수 있습니다.
정형/비정형 데이터 상호 연결 - 내 비즈니스에 대한 전방위적인 정보를 얻고자 한다면 이미지, 음성, 문서와 같은 비정형 데이터를 정형 데이터와 결합해 분석해야 합니다.
Google Cloud에서는 데이터 사용자가 SQL을 사용해 비정형 데이터를 손쉽게 액세스, 전환, 처리, 쿼리할 수 있도록 지원하기 위해 BigLake Object Tables 정식 버전을 출시했습니다. 또한 BigLake에서 Hudi 및 Delta 파일 형식을 정식으로 지원하기 시작했습니다. BigLake의 완전 관리형 Iceberg 테이블 프리뷰 버전 출시로 BigLake가 한 단계 더 업그레이드되었습니다. 이제 BigLake 사용자는 처리량이 높은 스트리밍 수집 기능을 Cloud Storage의 데이터에 활용하고, 완전 관리형 환경에서 레이크하우스에 자동 스토리지 최적화를 적용하며, BigLake의 DML 트랜잭션 기능을 통해 일관된 수정 적용과 데이터 보안 개선의 이점을 얻는 동시에 Iceberg 리더와의 완전한 호환성을 유지할 수 있게 되었습니다.
BigLake는 사용량이 연초 대비 27배에 이를 정도로 놀랍게 성장했습니다.
여러 클라우드의 데이터 상호 연결 - BigQuery Omni는 여러 클라우드를 아우르는 단일 제어 창 역할을 하기 때문에 많은 고객이 이 제품을 사용하여 Google Cloud, AWS, Azure에 있는 데이터를 관리 및 분석하고 있습니다. Google Cloud는 이 BigQuery Omni의 성능을 한층 더 높이기 위해 교차 클라우드 방식의 구체화된 뷰와 조인 기능 지원을 추가했습니다. 또한 Google Distributed Cloud에 Dataproc Spark를 결합하여 온프렘 데이터도 포함되도록 분석 범위를 확대했습니다. 덕분에 사용자는 민감한 정보를 자체 데이터 센터에 보관한 상태로 Spark를 실행하여 규정 준수 또는 데이터 주권 요구사항을 충족하고 Google Cloud의 BigQuery 데이터와도 연결할 수 있게 되었습니다.
데이터 관리 및 거버넌스 상호 연결 - Google Cloud는 데이터의 완전성, 정확성, 유효성을 파악하는 데 도움이 되도록 지능형 데이터 프로파일링 및 데이터 품질 기능을 추가했습니다. 또한 Dataplex의 데이터 관리 및 거버넌스 기능을 더욱 확대해 출시했습니다. 사용자는 Vertex AI 모델 및 데이터 세트, 운영 데이터베이스, Google Cloud 및 Omni의 분석 데이터를 포함한 모든 데이터와 AI 애셋을 단일 제어 창을 통해 볼 수 있습니다.
데이터 공유 - 주어진 한 주 동안 수천 개의 조직에서 BigQuery를 사용해 조직의 경계를 넘어 공유한 데이터는 수백 페타바이트에 달합니다. 데이터 상호 연결을 추가로 지원하기 위해 출시된 BigQuery 데이터 클린룸 기능을 사용하면 사용자 개인 정보를 보호하는 동시에 여러 회사의 데이터 세트를 공유하고 일치시키며, 신뢰할 수 있는 파트너와 공동으로 분석 작업을 수행할 수 있습니다.
비용 최적화 - 모든 데이터를 상호 연결하는 데 높은 비용이나 예측의 어려움이 따라서는 안 됩니다. 이에 Google Cloud는 혁신적인 슬롯 자동 확장 및 새로운 압축 스토리지 청구 모델과 함께 BigQuery 가격 책정 버전을 선보였습니다. BigQuery는 다양한 워크로드 요구사항에 적합한 기능 모음을 고를 수 있는 선택권과 유연성을 더하기 위해 여러 버전으로 제공됩니다. Standard, Enterprise, Enterprise Plus 버전을 혼합하여 워크로드별로 원하는 가격 대비 성능을 달성할 수 있습니다. BigQuery 버전에는 예측 가능한 워크로드에 대해 저렴한 가격으로 1년 또는 다년 약정을 체결할 수 있는 기능뿐 아니라 사용한 컴퓨팅 용량만큼의 비용만 지불하는 옵션을 제공하여 예측 불가능한 워크로드를 지원하는 새로운 자동 확장 기능이 포함되어 있습니다.
데이터에 AI 활용
AI는 데이터의 유용성을 높여주는 수많은 기회를 제공합니다. 따라서 Google Cloud는 모든 데이터팀에서 AI에 쉽게 접근하고 데이터를 AI 모델 학습에 간편하게 사용할 수 있도록 했습니다.
고객들은 이미 BigQuery에서 수억 건의 예측 및 학습을 실행하고 있습니다. 지난 6개월만 봐도 BigQuery의 ML 운영 횟수가 전년 대비 250% 이상 증가했습니다.
BigQuery의 향상된 AI 지원 기능을 몇 가지 소개합니다.
파운데이션 모델 액세스 - 이제 사용자는 BigQuery에서 바로 Vertex AI의 파운데이션 모델에 액세스할 수 있습니다. 단 한 줄의 명령문으로 BigQuery 테이블을 대규모 언어 모델(LLM)에 연결하고 자체 BigQuery 데이터로 프롬프트를 조정할 수 있습니다. 따라서 텍스트 분석 같은 생성형 AI 기능을 데이터에 사용하거나 새로운 속성을 생성하여 데이터 모델을 보강할 수 있습니다. Vertex Doc AI 워크벤치를 사용하면 몇 번의 클릭만으로 맞춤형 LLM 추출기를 배포할 수 있어 BigQuery에서 바로 액세스해 텍스트 데이터에서 특정 지식을 추출하도록 할 수 있습니다.
AI 모델 범위 확장 - Google Cloud에서는 선행 학습된 모델과 개방형 ML 프레임워크 생태계에 액세스할 수 있는 BigQuery ML 추론 엔진도 출시했습니다. 이제 BigQuery에서 Google Vision, 자연어, 번역 모델에 예측을 실행하고, TensorFlow Lite, ONNX, XGBoost와 같은 추가 형식의 모델을 가져오며, Vertex AI에서 호스팅되는 모델을 바로 사용할 수 있습니다.
특성 및 벡터 임베딩 - BigQuery 특성 테이블과 벡터 임베딩 기능이 프리뷰 버전으로 출시됨에 따라 BigQuery에 모든 ML 특성과 벡터 임베딩을 저장할 수 있게 되었습니다. 사용자는 BigQuery에 특성 및 벡터 임베딩 데이터를 로드하여 BigQuery 데이터의 규모에 맞춰 실시간으로 강력한 시맨틱 검색을 빌드하고 추천 쿼리를 실행할 수 있습니다. 또한 다른 데이터를 관리하는 것과 동일한 방식으로 특성을 관리할 수 있습니다. 이에 더해 Vertex AI Feature Store에 데이터를 자동으로 동기화하여 데이터를 이동할 필요 없이 지연 시간이 짧은 웹 애플리케이션을 제공할 수 있습니다.
데이터 및 AI 관리자를 위한 통합 작업공간 - Google Cloud는 하나의 공유 환경에서 AI와 데이터를 관리할 수 있도록 데이터 엔지니어링, 분석, ML 워크로드를 한눈에 볼 수 있는 BigQuery Studio를 프리뷰 버전으로 출시했습니다. 이제 사용자는 추가 인프라 관리 오버헤드 없이 SQL, Python, Spark, 기타 언어를 편집하고 페타바이트 규모로 쉽게 분석을 실행할 수 있습니다. BigQuery Studio에서는 Colab에 Google Cloud의 엔터프라이즈급 보안 및 규정 준수를 실현한 새로운 제품인 Colab Enterprise에 바로 액세스할 수 있습니다.
이번에 함께 출시된 BigQuery DataFrames API 프리뷰 버전 덕분에 친숙한 Pandas/Scikit용 API를 사용해 BigQuery에서 바로 데이터 과학을 위한 Python을 간편하게 실행할 수 있게 되었습니다. BigQuery에서 Python을 작성할 수 있으므로 훌륭한 노트북 환경이 제공됩니다.
AI로 생산성 향상
올해에는 수십 년간 진행된 AI 투자와 연구를 바탕으로 한 생산성 향상 도구를 선보였습니다.
데이터 분석을 위한 AI - 데이터 분석을 간소화하고 코드를 생성하며 데이터 워크로드를 최적화하는 데 활용할 수 있도록 BigQuery의 Duet AI가 출시되었습니다. 기능은 다음과 같습니다.
- 사용자가 로직과 결과에 더욱 집중할 수 있도록 SQL 쿼리 및 Python 코드 작성을 지원
- 코드를 실시간으로 자동 추천하고 전체 함수와 코드 블록을 생성
- 채팅 환경에서 데이터 작업 수행을 지원
또한 자동 SQL 변환을 통해 레거시 애플리케이션을 현대화할 수 있도록 데이터 마이그레이션 서비스에 Duet AI를 도입했습니다.
데이터 거버넌스를 위한 AI - Dataplex에도 Duet AI가 도입되었습니다. Dataplex의 Duet AI는 콜드 스타트 문제 해결을 위한 메타데이터 정보를 얻는 데 활용할 수 있습니다. 즉, 데이터에 어떤 질문을 던질 수 있는지 알게 됩니다. Duet AI를 활용하면 메타데이터와 사용 패턴을 기반으로 데이터에 물어볼 수 있는 질문 목록이 생성되므로 클릭 한 번으로 BigQuery Studio에서 SQL 쿼리를 실행하여 분석을 바로 시작할 수 있습니다.
비즈니스 인텔리전스를 위한 AI - 1,000만 명 이상의 사용자가 매월 Looker에 액세스하고 있으며 1,000개가 넘는 데이터 소스와 800개 이상의 커뮤니티 커넥터를 활용하여 심층적인 통계 정보를 얻을 수 있습니다.
아울러 Google Cloud에서는 사용자가 자연어로 대화형 데이터 분석을 수행할 수 있도록 Looker의 Duet AI를 출시했습니다. 이점은 다음과 같습니다.
- 자연어로 대화형 데이터 분석을 수행할 수 있음
- Looker에 분석 목적을 알려 자동으로 대시보드와 보고서를 생성할 수 있음
- Looker 대시보드의 지능형 요약 기능을 사용해 Google Slides 프레젠테이션을 생성할 수 있음
- 자연어로 Duet Formula와 데이터 시각화 어시스턴트를 사용하여 신속하게 계산하고 시각 자료를 생성할 수 있음
- 자연어로 신속하게 LookML 코드를 생성하고 데이터 모델의 인텐트를 지정할 수 있음
다음 단계
Google Cloud는 2024년 이후를 향한 혁신 로드맵을 마련했습니다. 11월 13일에 진행된 웹캐스트 온디맨드에 등록하여 BigQuery, 스트리밍 분석, 데이터 레이크, 데이터 통합, 생성형 AI에 대한 Google Cloud의 계획과 투자에 대해 알아보세요. 앞으로 이와 같은 Google 데이터 및 AI 클라우드의 새로운 기능을 활용하여 놀라운 성과와 혁신을 일구어 나가시길 기대하겠습니다.