The Prompt: 멀티모달로 마무리한 AI의 역사적인 한 해

Philip Moyer
Global VP, AI & Business Solutions at Google Cloud
*본 아티클의 원문은 2023년 12월 21일 Google Cloud 블로그(영문)에 게재되었습니다.
비즈니스 리더들 사이에서 생성형 AI가 큰 관심을 끌고 있습니다. 'The Prompt'는 빠르게 변화하는 이 주제에 대한 최신 정보를 놓치지 않도록 고객 및 파트너와 계속 협업하면서 확인한 사항과 Google의 최신 AI 트렌드를 전해드립니다. 이번 호에서는 Google Cloud의 AI 및 비즈니스 솔루션 부문 글로벌 부사장 필립 모이어가 올해 기업용 기술 발전을 돌아보고 새해를 전망합니다.
올해 초, 폭발적인 인기를 끈 생성형 AI가 대세로 자리 잡으면서 많은 일이 있었습니다. Google은 2023년 수십 개의 생성형 AI 제품과 수백 개의 생성형 AI 업데이트를 출시했으며 그중에서도 가장 최신 기술인 Gemini, AI Hypercomputer, 개발자용 Duet AI(현재 정식 버전)가 모두 이번 달에 출시되었습니다. 그 속도가 정말 놀랍습니다.
이처럼 가속화된 혁신이 곳곳에서 목격되고 있습니다. Google Cloud에서는 Vertex AI에 대한 활성 생성형 AI 프로젝트의 수가 7배 이상 증가했습니다. 또한 개발자들이 정교한 AI 에이전트를 빌드할 수 있도록 이미 Gemini로 Vertex AI Platform을 강화하고 있습니다. Gemini는 Duet AI 포트폴리오에 곧 도입될 예정으로서 고객들이 언제 어디서나 필요할 때 AI 지원을 받을 수 있게 될 것입니다. 이뿐만 아니라 오픈소스 생성형 AI 분야의 활동이 급증했고 산업 전반의 조직들이 뛰어난 모델을 많이 선보였습니다. 정말 흥미진진한 시기입니다.
올해 대기업에서 발표한 새로운 소비자 애플리케이션과 참신한 실험들이 많은 관심을 받았습니다. Gemini와 같은 멀티모달 모델을 토대로 산업 전반에서 더 의미 있고 중요한 발전을 이룰 수 있을 것으로 기대합니다.
또한 2023년 초반에는 대부분의 모델이 학습 데이터에 국한되어 있었지만 지금은 모델을 세부 조정하고 외부 및 독점 소스에 연결하여 조직이 데이터 전반에 AI 모델의 인텔리전스를 적용할 수 있는 강력한 솔루션을 갖추고 있습니다. 기업의 엔터프라이즈 데이터를 포괄하는 질의응답 챗봇을 지원하고 광범위한 정보를 종합하고 분석하는 등 이러한 기능이 주목할 만한 사용 사례에 쓰이고 있습니다.
과장하는게 아니라 Gemini를 처음 접했을 때 마법 같다고 느꼈습니다. 다른 사람들도 이러한 경험을 할 수 있기를 바랍니다. 점점 더 많은 리더들이 생성형 AI의 새로운 사용 사례를 파악함은 물론 거의 모든 부문에 직접 사용하기 시작할 것입니다.
멀티모달리티로 가능해진 고급 추론
Gemini는 처음부터 멀티모달로 빌드되었습니다. 이는 텍스트, 코드, 오디오, 이미지 또는 동영상과 같은 다양한 유형의 정보를 동시에 일반화, 이해, 운영, 결합할 수 있다는 의미입니다.
예를 들어 Gemini에 “지난 5년간 이 은행 또는 온라인 소매업체의 현금 배당금 지급 비율은 얼마였습니까?”라고 질문한다고 가정해 보겠습니다.
배당금 지급 비율은 주주에게 배당금으로 지급되는 회사 순익의 총순익 대비 비율을 나타냅니다. 응답을 제공하기 위해서는 모델이 현금, 현금등가액, 배당금의 서로 다른 정의를 이해하고 비율의 수학적 개념 내에서 이를 적용할 수 있어야 합니다. 또한 외부 시스템에서 지난 5년간의 금융 정보를 정확하게 가져오고 다른 AI 모델에 액세스하여 이 비율을 계산해야 합니다.

한 문장의 다음 단어(또는 다음에 나오는 여러 단어)를 예측하는 모델과 다양한 데이터 유형의 정보를 이해하고 이를 바탕으로 작업하는 더 정교한 모델의 차이는 바로 멀티모달리티에 있습니다. 위의 질문에 응답하기 위해서는 모델이 질문을 이해할 뿐만 아니라 방정식과 같은 수학적 개념을 구별하고 필요한 특정 요소를 가져와야 합니다. 1년 전만 해도 이 두 가지는 구현이 불가능한 기능이었습니다.
Gemini와 같은 모델은 완전히 새로운 생성형 AI의 시대가 도래하고 있음을 의미합니다. 이제는 진정한 언어 이해가 가능해져 시스템이 다양한 유형의 데이터를 종합하고 산업 전반적으로 더 많은 비즈니스 가치를 창출할 수 있게 됩니다.
또한 Gemini 같은 모델은 훨씬 더 많은 상황을 처리할 수 있기 때문에 도메인과 실제 환경의 애플리케이션이 그만큼 더 강력합니다. 기기에서 작동하는 모바일 크기의 모델인 Gemini Nano는 에지에서 AI를 실행하여 더 빠르고 제한된 연결로 데이터를 안전하게 분석해 응답할 수 있는 엄청난 기회를 창출합니다. 이러한 모바일 중심 모델은 응급 서비스, 모바일 뱅킹 또는 증강 현실 게임과 같은 다양한 작업을 향상시킬 수 있습니다.
정보 혼합을 통한 현실의 문제 해결
또한 멀티모달 기능은 실제 세상의 과제 해결을 위해 다양한 유형의 데이터를 병합할 수 있는 새로운 방법을 조직에 제공합니다. 많은 산업에서 단일 분석 모드나 제한된 데이터 소스로는 해결할 수 없는 구조화되지 않은 예기치 않은 문제에 직면합니다.
예를 들어 건설 현장의 안전성을 개선하려면 다양한 유형의 정보를 분석하고 결합해야 합니다. 기업에는 동영상 피드나 이미지와 같은 시각적 데이터, 건설 현장의 사고 보고서 또는 재정적 비용이나 일정 지연과 같은 기타 유형의 데이터가 있을 수 있습니다. 멀티모달 생성형 AI 모델이 이 모든 정보를 혼합하여 언제, 어디서, 어떻게 사고가 발생할 가능성이 가장 높은지 이해하고 더 안전하고 효율적인 접근법을 마련하도록 도와줄 수 있습니다.
또는 항공 정비사가 속도를 높이면 이상한 소리가 나는 엔진을 평가한다고 가정해 보겠습니다. 이 정비사는 소리가 발생할 때 동영상을 촬영한 후 음성으로 몇 가지 세부 사항을 설명합니다. 그러면 생성형 AI 앱이 정보의 형식을 고려하여 특정 기술 핸드북에서 관련 정보를 가져와 정비사가 문제를 빠르게 식별하고 문제에 대한 해결책을 찾도록 도와줍니다.
혼합된 정보 유형마다 다른 모델을 사용하는 대신 여러 형식을 동시에 작업하도록 설계된 단일 모델을 사용하면 인간의 기본 능력인 다감각적 추론이 생성형 AI에서도 가능해집니다. 이러한 발전 덕분에 정보 조회, 거래 완료, 의사 결정과 같은 목표를 달성하기 위해 조치를 할 수 있는 생성형 AI 에이전트를 빌드할 수 있는 가능성이 더욱 커졌습니다.
이미 새로운 비즈니스 가치를 제공하는 AI 에이전트를 빌드한 창의적인 여러 사례가 보고되고 있습니다.
Priceline은 여행자가 대화형 채팅 경험으로 직접 장소를 조사하고 복잡한 일정을 계획하고 여행을 예약하도록 도와주는 디지털 컨시어지를 개발하고 있습니다. Six Flags에서는 테마파크 방문객이 하루를 계획하도록 돕고 질문에 답하며 놀이기구, 엔터테인먼트, 식사 등에 대한 맞춤형 추천도 제공하는 새로운 가상 어시스턴트를 만들고 있습니다. Formula E는 레이싱카 센서의 실시간 원격 분석 데이터를 과거의 챔피언십 기록과 함께 분석하여 실시간 이벤트가 진행되는 동안 선수와 팬들의 질문에 답하는 대화형 에이전트를 출시했습니다.
조직에서 다양한 형태의 실제 데이터 및 기업 데이터를 가져와 이해하고 조치할 수 있는 에이전트로 어떤 새로운 사용 사례를 실현할 수 있을지 상상해 보세요.
새로운 차원의 생성형 AI 사용 사례
생성형 AI 모델에 계속해서 더 많은 형식이 추가됨에 따라 잠재적 AI 사용 사례도 확장과 진화를 거듭하고 있습니다. 기본적인 응답만을 생성하던 생성형 AI 앱이 계약 및 금융 데이터를 분석하고 대규모 연구 기관들의 데이터를 집계하고 완성된 콘텐츠 초안을 제공하는 등의 모든 지원이 가능한 복잡한 생성형 AI 시스템 및 가상 어시스턴트로 발전할 것입니다.
내년에는 꾸준히 개발에 참여해 온 조직들이 새로운 생성형 AI 기능과 성능 향상을 위한 개선사항을 더 많이 선보일 것으로 기대됩니다. 또한 Gemini Nano와 같은 모델을 통해 생성형 AI를 에지에 배포하는 기능이 모바일 개발자에게 제공되면 기기가 완전히 탈바꿈되어 기기에서 생성형 AI에 액세스하여 새로운 비즈니스 사용 사례를 도입할 수 있게 될 것입니다.
흥미로운 멀티모달 사용 사례를 몇 가지 소개합니다.
- 보험금 청구 및 심사: 생성형 AI 모델을 사용해 휴대전화 동영상의 영상이나 이미지를 분석하여 충돌 사고의 피해를 평가합니다.
- 자산 관리: 유형 자산의 질을 유지하기 위해 건물 기록을 감사하고 위험 기반 검사를 수행합니다.
- 질병 진단: 연구실 테스트, 의료 영상, 환자 데이터를 분석해 의료진이 건강 상태를 파악하고 잠재적인 질병의 진행을 예측하도록 돕습니다.
- 금융 사기 감지: 사기 수법 및 활동에 대한 실제 지식을 통합하여 위조지폐, 사기성 거래, 기타 은밀하게 이루어지는 이상 행위를 인식하는 등 사기 감지를 개선합니다.
- 계약 준수: 소매업체 진열대 공간과 물리적 상품기획을 평가하여 진열대 배치 및 프로모션이 공급업체와의 소매 계약을 반영하는지 확인합니다.
- 구매 또는 거래 기록 분석: 고객 또는 조직이 자연어 쿼리를 사용하여 뱅킹 관련 질문에 대한 답을 얻고 소비 습관을 알 수 있습니다.
- 문서 요약 및 검색: 실적 발표와 보도 자료를 분석하여 핵심 내용을 파악하고 애널리스트 질문을 예측합니다.
Gemini는 우리에게 앞으로 나아갈 길을 보여줍니다. AI로 조직을 혁신할 기회를 잡는 것은 비즈니스 리더와 이사회의 몫입니다.
올해는 이러한 미래를 가능하게 하기 위한 변곡점이었을 뿐 진정한 혁신은 아직 오지 않았습니다. 저는 이러한 혁신을 몹시 기대하고 있으며 Google Cloud가 이를 구현하는 데 중요한 파트너가 되기를 바랍니다. Google의 최신 생성형 AI 기술과 개발자에게 차세대 도구를 제공하기 위한 Google의 노력에 대해 자세히 알아보려면 Applied AI Summit 하이라이트를 확인하세요.
도입부 이미지는 Google Cloud 기반 Midjourney에서 '혼합된 이미지, 텍스트, 동영상, 코드, 오디오를 전달하는 잡지 스타일의 적절한 개념 설명 이미지'이라는 프롬프트를 사용하여 제작했습니다.