콘텐츠로 이동하기
데이터 분석

정식 버전으로 출시된 BigQuery 객체 테이블을 사용해 AI로 비정형 데이터 변환

2023년 6월 30일
Gaurav Saxena

Group Product Manager

Thibaud Hottelier

Senior Staff Software Engineer

오늘날 전 세계에서 생성되는 대부분의 데이터는 비정형 형태(텍스트, 오디오, 이미지)이며 이 가운데 극히 일부 데이터만 분석에 활용됩니다. 이 데이터에서 최대한 가치를 창출하는 데 필요한 AI 파이프라인은 주요 분석 시스템으로부터 고립되어 있기 때문에 엔지니어가 정형 및 비정형 데이터 정보를 통합할 수 있는 커스텀 데이터 인프라를 구축해야 합니다. 

Google Cloud의 목표는 데이터의 유형과 형식에 관계없이 모든 사용자가 데이터의 잠재력을 실현하도록 돕는 것입니다. 데이터 잠재력을 보다 수월하게 실현하도록 Google Cloud Next 2022에서 BigQuery 객체 테이블의 미리보기 버전을 출시한 바 있습니다. BigLake에서 지원되는 객체 테이블은 BigQuery 사용자에게 Cloud Storage에 저장된 비정형 데이터에 대한 정형 레코드 인터페이스를 제공합니다. 덕분에 사용자는 기존 BigQuery 프레임워크를 토대로 객체 테이블을 사용해 이 데이터를 안전하고 제어되는 방식으로 처리하고 관리할 수 있습니다. 

미리보기 버전을 출시한 이후 고객들이 많은 사용 사례에 객체 테이블을 사용한 것으로 확인되었으며 이제 객체 테이블이 정식 버전으로 출시된다는 기쁜 소식을 전해드립니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_MJT46Ql.max-1300x1300.jpg

BigQuery 객체 테이블을 사용해 비정형 데이터 분석

https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_ESsx5ZK.max-700x700.png

객체 테이블을 사용하면 SQL의 단순성을 활용하여 비정형 데이터를 토대로 다양한 AI 모델을 실행할 수 있습니다. AI 모델을 사용하기 위한 핵심 메커니즘은 세 가지가 있으며 모두 BigQuery 추론 엔진을 통해 제공됩니다. 

첫째, 모델을 임포트하고  객체 테이블에서 쿼리를 실행하여 BigQuery 내에서 데이터를 처리할 수 있습니다. 이 접근 방식은 기존 BigQuery 리소스를 활용할 수 있는 통합 BigQuery 솔루션을 찾는 고객에게 적합합니다. 미리보기 버전을 출시한 이후 TensorFlow 모델 외 TF-Lite 및 ONNX 모델로 지원 범위를 확장했으며 이미지 전처리를 위한 새로운 스칼라 함수를 도입했습니다. 또한 슬롯 사용량을 줄일 수 있도록, 다중 모델이 효율적으로 텐서를 사용할 수 있게 하는 전처리된 텐서 저장 기능 지원을 추가했습니다. 

둘째, Cloud Vision API, Cloud Natural Language API, Cloud Translation API와 같이 선행 학습된 다양한 Google 모델들을 사용할 수 있습니다. 이러한 모델에는 객체 테이블을 쿼리할 때 호출하는 사전 정의된 SQL 테이블 값 함수(TVF)가 추가되었습니다. 추론 결과는 BigQuery 테이블로 저장됩니다. 

셋째, 원격 함수를 사용해 Vertex AI를 통해 빌드된 고객이 호스팅하는 AI 모델 또는 커스텀 모델을 통합할 수 있습니다. BigQuery SQL에서 이러한 원격 함수를 호출하여 객체를 모델에 서빙할 수 있으며 결과는 BigQuery 테이블로 반환됩니다. 이 옵션은 GPU와 같은 자체 모델 인프라를 운용하거나 외부에서 유지관리되는 모델이 있는 경우에 적합합니다. 

미리보기 기간 동안 고객은 이러한 통합 메커니즘을 함께 사용하여 자체 AI 워크로드를 이미 BigQuery에 있는 데이터와 통합했습니다. 예를 들어 농업 기술 회사인 Semios는 정밀 농업 사례를 서빙하기 위해 임포트된 원격 이미지 처리 모델을 사용합니다. 

“임포트된 모델과 객체 테이블을 함께 사용하는 새로운 기능을 통해 state-of-the-art PyTorch 비전 모델을 가져와 이미지 데이터를 처리하고 BigQuery를 사용해 과수원 기온 예측을 개선할 수 있습니다. 또한 새로운 원격 모델 기능을 사용하여 파이프라인을 크게 간소화하고 유지관리를 개선할 수 있습니다.” - Semios

https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-1_fr1xIKu.max-1300x1300.jpg

스토리지 정보, 세분화된 보안, 공유 등 

고객은 AI 모델을 사용한 처리 외에도 기존의 데이터 관리 프레임워크를 비정형 데이터로 확장하고 있습니다. 그 결과 다음과 같은 몇 가지 새로운 사용 사례가 생겨났습니다.

  • Cloud Storage 인사이트 - 객체 테이블은 Cloud Storage 메타데이터(예: 스토리지 클래스)에 대한 SQL 인터페이스를 제공하므로 고객은 보다 쉽게 Cloud Storage 사용량에 대한 분석을 축적하고, 증가세를 파악하고, 비용을 최적화하고, 정보에 입각한 의사결정을 내림으로써 데이터 관리 개선을 도모하고 있습니다.
  • 규모에 따라 세분화된 액세스 제어 - 객체 테이블은 BigLake의 통합 레이크하우스 인프라를 토대로 빌드되며 행 및 열 수준의 액세스 제어를 지원합니다. 이를 통해 특정 객체를 관리되는 서명된 URL로 보호할 수 있습니다. 세분화된 액세스 제어는 AI 모델에서 반환된 PII 추론을 기반으로 특정 문서 및 이미지를 보호하는 등 비정형 데이터 사용 사례를 보강하는 데 광범위하게 적용될 수 있습니다.  
  • Analytics Hub와 공유 - BigLake 테이블과 유사한 방식으로 Analytics Hub를 통해 객체 테이블을 공유하여 비정형 데이터 공유 사용 사례를 더욱 확장할 수 있습니다. 버킷을 공유하는 대신 이제 파트너, 고객 또는 공급업체와 공유할 객체를 보다 세밀하게 제어할 수 있습니다.

객체 테이블을 사용해 생성형 AI 워크로드 실행(미리보기)

Google Cloud AI의 신뢰할 수 있는 테스터 프로그램에 가입하면 모델 가든에서 사용할 수 있는 광범위한 생성형 AI 모델을 객체 테이블을 토대로 실행할 수 있습니다. 생성형 AI 스튜디오를 사용해 원하는 기반 모델을 결정하거나 파인 튜닝하여 커스텀 API 엔드포인트를 배포할 수 있습니다. 그런 다음 원격 함수 통합을 사용하여 BigQuery로 이 API를 호출하여 프롬프트/입력을 전달하고 언어 학습 모델(LLM)의 텍스트 결과를 BigQuery 테이블로 반환할 수 있습니다. 앞으로 몇 달 안에 BigQuery 추론 엔진을 통해 LLM을 직접 호출할 수 있는 SQL 함수를 지원하여 이러한 워크로드를 더욱 간소화할 계획입니다. 

시작하기

먼저 단계별 실습 또는 튜토리얼에 따라 BigQuery에서 첫 번째 비정형 데이터 분석을 실행해 보세요. 자세한 내용은 Google 문서를 참조하세요.


Acknowledgments: Abhinav Khushraj, Amir Hormati, Anoop Johnson, Bo Yang, Eric Hao, Gaurangi Saxena, Jeff Nelson, Jian Guo, Jiashang Liu, Justin Levandoski, Mingge Deng, Mujie Zhang, Oliver Zhuang, Yuri Volobuev and rest of the BigQuery engineering team who contributed to this launch.

게시 위치