BigQuery가 이제 AI를 지원하는 단일 통합 데이터 플랫폼을 제공합니다
Oliver Ratzesberger
VP, Product Management
Irina Farooq
Sr. Director, Product Management
*본 아티클의 원문은 2024년 4월 10일 Google Cloud 블로그(영문)에 게재되었습니다.
데이터 분야 리더의 80%가 데이터와 AI 사이의 경계가 모호해지고 있다고 생각합니다. 비즈니스 데이터에 대규모 언어 모델(LLM)을 사용하면 경쟁 우위를 확보할 수 있지만, 이러한 우위를 실현하려면 데이터를 구조화, 준비, 제어, 모델링, 확장하는 방법이 중요합니다.
이미 수만 개의 조직이 데이터 클라우드를 강화하기 위해 BigQuery와 그 통합 AI 기능을 선택하고 있습니다. 하지만 데이터 기반 AI 시대에 조직은 모든 데이터 워크로드를 관리할 수 있는 간단한 방법을 필요로 합니다. 이제 Google은 한 걸음 더 나아가 Google Cloud의 핵심 데이터 분석 기능을 AI를 지원하는 단일 데이터 분석 플랫폼인 BigQuery로 통합합니다. BigQuery는 여러 Google Cloud 분석 서비스의 주요 기능을 단일 제품 환경에 통합하여 BigQuery 테이블의 구조화된 데이터는 물론 이미지, 잠재고객, 문서 등 구조화되지 않은 데이터와 스트리밍 워크로드까지 관리하는 데 필요한 단순성과 확장성을 최고의 가격 대비 성능으로 제공합니다.
BigQuery의 이점:
-
모든 데이터 유형과 개방형 형식을 지원하여 데이터 및 AI 기반을 확장합니다.
-
사전 크기 조정이 필요 없으며, 완전 관리형 서버리스 워크로드 관리 모델과 범용 metastore를 통해 규모와 상관없이 데이터를 간편하게 가져올 수 있습니다.
-
단일 데이터 사본에 여러 언어와 엔진(SQL, Spark, Python)을 지원하여 협업을 수행하는 데이터팀의 유연성과 민첩성을 향상합니다.
-
기본으로 제공되는 고가용성, 데이터 거버넌스, 엔터프라이즈 보안 기능을 통해 데이터에서 AI까지의 수명 주기를 엔드 투 엔드로 지원합니다.
- 모든 데이터 사용자를 위해 설계된 통합 제품 환경과 AI 기반 보조 및 협업 기능으로 분석을 간소화합니다.
BigQuery에서 데이터를 처리하면 빠르고 효율적으로 생성형 AI를 데이터에 접목하고 LLM의 이점을 활용할 수 있습니다. BigQuery는 BigQuery ML과 BigQuery DataFrames를 통해 Gemini 모델을 제공함으로써 엔터프라이즈를 위한 멀티모달 생성형 AI를 간소화합니다. Vertex AI가 제공하는 문서 처리 기능 및 음성 텍스트 변환 API와의 확장된 통합, 그리고 비즈니스 데이터에 대한 AI 기반 검색을 가능하게 하는 벡터 기능을 갖춘 BigQuery를 활용하면 구조화되지 않은 데이터에서 가치를 창출할 수 있습니다. 구조화된 데이터와 구조화되지 않은 데이터를 결합하여 얻은 인사이트를 통해 LLM을 더욱 세부적으로 조정할 수 있습니다.
모든 데이터 유형 및 개방형 형식 지원
여러 고객들이 BigQuery에서 세분화된 액세스 제어와 통합 거버넌스를 사용해 구조화 여부와 관계없이 모든 유형의 데이터를 관리하고 있습니다. BigQuery의 통합 스토리지 엔진인 BigLake는 개방형 테이블 형식을 지원하기 때문에 사용자가 기존 오픈소스 및 레거시 도구를 사용해 구조화된 데이터와 구조화되지 않은 데이터에 액세스하는 동시에 통합 데이터 플랫폼의 이점도 활용할 수 있습니다. BigLake는 Apache Iceberg와 Apache Hudi, 그리고 이제 BigQuery와 기본적으로 통합된 Delta Lake를 포함한 모든 주요 개방형 테이블 형식을 지원합니다. 또한 DDL, DML 및 스트리밍 지원을 포함해 Iceberg를 위한 완전 관리형 환경을 제공합니다.
데이터팀은 데이터가 구조화되었는지, 구조화되지 않았는지, 아니면 개방형 형식인지에 관계없이 범용적으로 정의된 데이터에 액세스할 수 있어야 합니다. 이를 지원하기 위해 Google Cloud는 확장 가능한 관리형 런타임 메타데이터 서비스인 BigQuery metastore를 출시합니다. metastore는 범용적인 테이블 정의를 제공하고 분석 및 AI 런타임에 세부 조정된 액세스 제어 정책을 시행할 수 있습니다. 지원되는 런타임에는 Google Cloud, 오픈소스 엔진(커넥터를 통해), 서드 파티 파트너 엔진이 포함됩니다.
단일 데이터 사본에서 여러 언어 및 서버리스 엔진 사용
점점 더 많은 고객이 단일 데이터 사본에서 여러 언어와 엔진을 실행하기를 원하지만, 현재 분석 및 AI 시스템이 파편화되어 있어 어려움을 겪고 있습니다. 이제 BigQuery를 떠나지 않고도 Python 및 PySpark의 프로그래매틱 기능을 데이터에 바로 적용할 수 있습니다.
BigQuery DataFrames는 최소한의 학습 곡선으로 Python의 강력한 성능과 BigQuery의 확장성 및 사용 편의성을 결합합니다. 이 솔루션은 투명하고 최적화된 방식을 통해 메서드를 BigQuery SQL 및 BigQuery ML SQL로 변환하여 Pandas와 scikit-learn에서 400개가 넘는 공통 API를 구현합니다. 데이터 과학자들은 이를 통해 클라이언트 측 역량의 한계를 허물고 BigQuery의 강력한 처리 성능을 활용해 테라바이트급 데이터에서 탐색, 변환, 학습 작업을 수행할 수 있습니다.
Apache Spark는 특히 데이터 엔지니어링 작업에서 널리 사용되는 데이터 처리 런타임으로 자리 잡았습니다. 실제로 지난 한 해 동안 Google Cloud에서 고객의 서버리스 Apache Spark 사용량이 500% 넘게 증가했습니다.1 BigQuery의 새로 통합된 Spark 엔진을 사용하면 SQL을 다룰 때와 마찬가지로 PySpark를 사용하여 데이터를 처리할 수 있습니다. BigQuery의 다른 구성요소와 마찬가지로 Spark 엔진은 완전히 서버리스이므로 컴퓨팅 인프라를 관리할 필요가 없습니다. 뿐만 아니라 PySpark를 사용해 저장 프러시저를 생성하고 SQL 기반 파이프라인에서 이를 호출할 수도 있습니다.
거의 실시간으로 의사 결정 및 ML 모델 피드
데이터팀은 신호와 인사이트, 작업 사이의 시간을 단축하여 실시간 분석 및 AI 솔루션을 제공해 달라는 요청을 점점 더 많이 받고 있습니다. 이제 BigQuery는 연속적인 SQL 쿼리(제한 없는 SQL 쿼리, 데이터가 SQL 문을 통해 도착하는 즉시 처리)를 지원하여 실시간 스트리밍 데이터를 쉽게 처리할 수 있습니다. BigQuery 연속 쿼리는 데이터 및 AI 플랫폼에 대한 실시간 엔터프라이즈 지식을 제공해 Salesforce와 같은 다운스트림 SaaS 애플리케이션을 강화합니다. 또한, 오픈소스 스트리밍 워크로드를 지원하기 위해 Google Cloud는 Apache Kafka for BigQuery의 프리뷰 버전을 발표합니다. 고객은 버전 업그레이드, 리밸런싱, 모니터링 및 기타 운영상의 번거로움을 걱정할 필요 없이 Apache Kafka를 사용하여 스트리밍 데이터 워크로드를 관리하고 ML 모델을 피드할 수 있습니다.
거버넌스 및 엔터프라이즈 기능으로 분석 및 AI 확장
데이터를 더 쉽게 관리, 탐색, 제어할 수 있도록 지난해 Google Cloud는 데이터 품질, 계보, 프로파일링 등 Dataplex의 데이터 거버넌스 기능을 BigQuery에 바로 도입했습니다. 또한 통합 메타데이터 카탈로그를 기반으로 하는 Dataplex의 강화된 검색 기능을 포함하도록 BigQuery를 확장할 예정입니다. 이러한 기능을 활용하면 데이터 사용자가 Vertex AI의 모델과 데이터 세트를 비롯해 다양한 데이터와 AI 애셋을 탐색할 수 있습니다. 이제 BigQuery의 열 수준 계보 추적을 프리뷰 버전으로 사용할 수 있으며, 곧 Vertex AI Pipelines의 계보 기능도 프리뷰 버전으로 제공될 예정입니다. 세부 조정된 액세스 제어를 위한 거버넌스 규칙도 프리뷰로 제공되어 기업이 메타데이터를 기반으로 거버넌스 정책을 정의할 수 있습니다.
다수의 지리적 리전에 걸친 향상된 중복성을 원하는 고객을 위해서는 BigQuery를 위한 관리형 재해 복구 기능을 도입합니다. 현재 프리뷰로 제공되는 이 기능은 컴퓨팅 및 스토리지에 자동화된 장애 조치를 제공하며, 비즈니스에 필수적인 워크로드에 맞춤화된 새로운 지역 간 서비스수준계약(SLA)을 제공할 것입니다. 관리형 재해 복구 기능은 BigQuery Enterprise Plus 버전의 가격에 포함된 보조 리전에서의 대기 컴퓨팅 용량을 제공합니다.
모든 데이터 사용자를 위한 통합 환경
데이터 분석을 위한 Google Cloud의 단일 통합 플랫폼인 BigQuery는 데이터팀의 업무 수행 방식을 BigQuery Studio로 통합합니다. BigQuery Studio는 이제 정식 버전으로 출시되었으며, 모든 데이터 실무자가 데이터에서 AI로 이어지는 워크플로를 가속화하는 데 사용할 수 있는 협업용 데이터 작업공간을 데이터팀에 제공합니다. BigQuery Studio를 사용하면 데이터의 규모나 형식, 위치와 관계없이 하나의 통합된 분석 작업공간에서 SQL, Python, PySpark, 그리고 자연어를 사용할 수 있습니다. 팀 협업 및 버전 제어를 포함한 전체 수명 주기 기능을 통해 BigQuery Studio의 모든 개발 관련 자산을 활용할 수 있습니다. Next ‘23에서 BigQuery Studio가 출시된 후로 수십만 명의 사용자가 새로운 인터페이스를 적극적으로 사용하고 있습니다.2
AI 보조 및 협업 환경을 지원하는 BigQuery의 Gemini
Google Cloud는 BigQuery의 Gemini를 위한 새로운 혁신 몇 가지를 발표했습니다. 이러한 혁신은 데이터 준비, 분석, 엔지니어링을 돕는 AI 기반 환경, 그리고 사용자 생산성 향상 및 비용 최적화를 위한 지능형 추천을 통해 데이터팀을 지원하도록 설계되었습니다. 자연어 입력이 가능한 AI 중심 환경인 BigQuery 데이터 캔버스는 데이터 검색과 탐색, 분석을 더 빠르고 직관적으로 수행할 수 있도록 도와줍니다. BigQuery의 AI 증강 데이터 준비 기능은 사용자가 데이터를 정리 및 랭글링하고 로우 코드 방식으로 시각적 데이터 파이프라인을 빌드하거나 기존 파이프라인을 다시 빌드하는 데 도움을 줍니다. 또한 BigQuery의 Gemini를 활용하면 간단한 자연어 프롬프트를 사용해 관련 스키마 및 메타데이터를 참조하여 SQL 또는 Python 코드를 작성하고 수정할 수 있습니다.
Deutsche Telekom이 BigQuery 플랫폼을 통해 혁신을 실현한 방법
"Deutsche Telekom은 수평 확장이 가능한 데이터 플랫폼을 현재와 미래의 비즈니스 요구사항을 충족하도록 설계된 혁신적인 방식으로 구축했습니다. Deutsche Telekom이 보유한 단일 데이터 생태계의 중심에 BigQuery를 두고, 모든 데이터팀에서 데이터의 탈중앙화된 사용을 촉진하는 동시에 단일 정보 소스를 유지하기 위한 통합된 접근 방식을 만들었습니다. BigQuery와 Vertex AI를 통해 Deutsche Telekom은 데이터 주권 및 통합된 액세스 제어를 유지하면서 데이터 과학자가 AI 모델을 실험하고 프로덕션화할 수 있는 관리되고 확장 가능한 공간을 구축했습니다. 이를 통해 LLM을 실무에 신속하게 배포하여 데이터 엔지니어링 수명 주기를 가속화하고 새로운 비즈니스 기회를 창출할 수 있었습니다." - Ashutosh Mishra, Deutsche Telekom 데이터 아키텍처 부문 부사장
AI 지원 데이터 플랫폼 구축 시작하기
AI 지원 데이터 플랫폼 구축에 관해 자세히 알아보고 구축을 시작하려면 차세대 BigQuery를 지금 바로 살펴보세요. BigQuery의 Gemini에 적용된 최신 혁신에 대해 자세히 알아보고 Google Gloud가 추구하는 데이터 분석의 미래를 간략히 살펴보세요.
1. Google 내부 데이터 - Google Cloud에서 Apache Spark를 사용하여 처리된 데이터의 전년 대비 증가율(2023년 2월과 비교한 수치).
2. 2023년 8월 BigQuery Studio 발표 이후, 월간 활성 사용자 수는 지속적으로 증가함.