콘텐츠로 이동하기
AI 및 머신러닝

The Prompt: 사진 한 장이 천 마디 말의 가치가 있다는 것을 증명하는 멀티모달 AI

2025년 4월 29일
https://storage.googleapis.com/gweb-cloudblog-publish/images/GettyImages-1758555858.max-2600x2600.jpg
Logan Kilpatrick

Senior Product Manager, Google DeepMind

AI와 관련하여 오디오와 비전이 새로운 UX 패러다임을 만들고 있습니다. 멀티모달 AI가 무엇인지, 비즈니스와 사용자에게 어떤 기회를 제공하는지 알아보겠습니다.

* 본 아티클의 원문은 2025년 04월 30일 Google Cloud 블로그(영문)에 게재되었습니다.

Google DeepMind에서는 강화 학습(RL)부터 AlphaGo의 경쟁 효과, 노벨 화학상을 수상한 AlphaFold 연구에 이르기까지 모든 혁신 기술을 확인할 수 있습니다.

최근 Google Cloud는 Gemini의 최고 기능을 기반으로 네이티브 멀티모달 기능을 갖춘 가장 지능적인 모델인 Gemini 2.5를 출시했습니다. 멀티모달 기능(오디오, 영상, 텍스트의 입력 및 출력)은 AI가 보다 종합적이고 인간적인 방식으로 세상을 인식하고 이해하도록 지원합니다.

이는 이전 AI 시스템과는 중요한 차이점입니다. 알고리즘을 반복하는 초기 버전은 텍스트를 잘 처리했지만, 언어 모델을 인텔리전스의 대용물로 보기에는 문제가 있었습니다. 초기 버전은 많은 인간이 사용하는 시각적 또는 청각적 이해 방식으로는 세상을 이해할 수 없었기 때문입니다.

이제 멀티모달은 완전히 새로운 UX 패러다임을 만들어내고 있습니다. 예를 들어 이미 NotebookLM과 같은 솔루션에서는 오디오를 사용하고 있습니다. 궁극적으로 이러한 입력과 출력의 융합은 복잡한 워크플로를 자동화하고, 새로운 콘텐츠를 생성하고, 자연스럽고 강력한 사용자 경험을 제공하는 데 도움이 될 수 있습니다. 멀티모달 AI가 무엇인지, 이 새로운 패러다임을 어떻게 만들어 나가고 있는지, 비즈니스와 사용자에게 어떤 기회를 제공하는지 알아보겠습니다.

Video Thumbnail

멀티모달 AI의 개념과 컨텍스트가 중요한 이유

멀티모달 AI란 간단히 말해 인간에게 익숙한 모든 입력 모달리티와 출력 모달리티를 융합한 것입니다. 모델은 텍스트, 오디오, 동영상, 이미지를 입력으로 받아 동일한 형식으로 출력할 수 있습니다. 하지만 핵심은 컨텍스트입니다. 컨텍스트가 중요한 이유는 모델이 이를 통해 요청된 작업을 수행할 수 있기 때문입니다. 컨텍스트는 모델에서 얻는 응답의 품질을 결정하는 주요 요소입니다.

언어 모델을 위한 간단한 텍스트 프롬프트를 상상해 보세요. 새 세션이나 상호작용을 시작할 때마다 모든 것이 초기화됩니다. 이를 'AI 1.0' 시스템이라고 부릅니다. AI 1.0 시스템에서는 모델에 컨텍스트를 제공하고 컨텍스트 윈도우에 배치하는 등 모든 번거로운 작업을 사용자가 직접 수행해야 합니다.

멀티모달 AI는 오디오와 비전을 포함하여 인간이 받아들이는 컨텍스트를 사용하는 잠재적인 2.0 애플리케이션이 가능하기 때문에 흥미롭습니다.

오디오와 비전의 만남: 새로운 UX 패러다임

비전은 입력 관점에서 오늘날 가장 일반적인 방식입니다. 모델이 이미지를 잘 이해할 수 있다면 본질적으로 동영상도 잘 이해할 수 있습니다.

'사진 한 장이 천 마디 말의 가치가 있다'라는 오래된 격언이 있습니다. 멀티모달 환경에서는 이것이 더욱 중요합니다. 지금 컴퓨터를 보고 보이는 모든 것을 설명하려면 45분이 걸릴 것입니다. 하지만 사진을 딱 한 장 찍어도 전달할 수 있겠죠. 비전의 사용 사례는 객체 추적과 같은 단순한 것부터 이미지 감지까지 다양합니다. 예를 들어 공장에서 생산 라인을 모니터링하여 생산 중인 제품에 불순물이 없는지 확인하는 경우를 생각해 보세요. 또는 농장의 수십 장의 사진을 분석하여 작물 수확량을 파악하려고 할 수도 있습니다. 이러한 모달리티를 함께 조합하면 무궁무진한 기회가 열립니다.

최근 사례를 하나 소개해 드리겠습니다. Google Cloud Next에서 Gemini의 멀티모달 기능을 사용하여 1970년대 주방을 리모델링하는 방법을 참석자에게 선보였습니다. AI Studio에 텍스트 설명, 평면도, 이미지를 제공하면서 동료인 Paige의 주방을 분석해 달라고 프롬프트를 입력했습니다. Gemini는 기본 이미지 생성 기능을 활용해 수납장, 디자인, 색상 팔레트, 소재를 제안하며 아이디어를 실현했습니다. 그런 다음 실제로 비용이 얼마나 들지 예측하기 위해 Google 검색으로 그라운딩을 사용했습니다. 소재의 실제 비용과 지역 건축법까지 얻었습니다.

동영상 이해부터 기본 이미지 생성, Google 검색으로 실제 정보에 그라운딩하는 작업까지 이 모든 건 Gemini가 가장 잘하는 일입니다.

비전과 함께 오디오는 사용자가 AI와 상호작용하는 방식에 대한 또 다른 새로운 UX 패러다임입니다. 단순히 채팅 봇에 텍스트를 입력하는 프롬프트에 그치지 않고, 인간과 대화하는 데 많은 시간을 할애하듯 모델과 대화하는 것입니다.

NotebookLM을 살펴보세요. 범용이며 내부적으로는 Gemini 모델을 기반으로 합니다. 이것이 노트북 경험을 가능하게 하는 특별한 요소입니다. 또한 긴 컨텍스트이므로 오디오 모델은 노트북 자체에서 보여주는 것보다 훨씬 더 많은 작업을 수행할 수 있습니다. 연구 논문 업로드부터 AI 오디오 오버뷰를 통한 팟캐스트 제작에 이르기까지 사용자가 NotebookLM을 사용하고 있는 방식을 살펴보세요.

멀티모달 AI를 통해 더 많은 도전 과제를 해결할 기회를 얻는 비즈니스

오디오, 비전, 텍스트는 사용자와 비즈니스의 도전 과제를 해결할 능력을 제공하며 진입 장벽을 낮춥니다.

비즈니스를 차별화할 기회이기도 합니다. 채팅 봇에 마이크 아이콘을 넣는 것만으로는 이 기술의 잠재력을 온전히 활용할 수 없습니다. 대신 이러한 모달리티에 관한 심도 있는 제품 경험을 빌드해 보세요. 이제 모델을 직접 빌드하고 배포 방법을 알아내기보다는 모델에 단일 API 호출을 전송하는 것만으로 더 많은 도전 과제를 해결할 수 있습니다. 지금부터 즉시 사용할 수 있습니다.

올바른 방향으로 나아가고 있습니다

멀티모달의 미래는 실제 세계에서 조치를 취하는 모델과 더 강력한 인프라라는 두 가지 측면으로 나뉩니다. 로봇을 예로 들어보겠습니다. 이 모델은 점점 더 많은 것을 보고, 이해하며, 조치를 취할 수 있게 되고 있습니다. 이러한 모델을 신뢰할 만한 수준으로 만들기 위해서는 많은 노력이 필요하며, 우리는 이미 이런 방향으로 나아가고 있습니다.

또한 테스트, 모니터링 가능성, 모니터링, 버전 제어, A/B 테스트에 이르기까지 모든 것이 포함된 강력하고 최적화된 인프라도 필요합니다. 새로운 AI 생태계를 낙관적으로 생각하고 있습니다. 스택의 모든 레이어를 살펴보면 혁신할 기회가 있기 때문입니다. 멀티모달 AI가 2025년에 어떤 형태로 발전할지 자세히 알아보려면 AI 트렌드 보고서를 다운로드하세요.

게시 위치