Google Cloud 생성형 미디어 모델, 나노 바나나 활용법 공개

Michael Gerstenhaber
VP of Product Management, Vertex AI
* 본 아티클의 원문은 2025년 10월 03일 Google Workspace 블로그(영문)에 게재되었습니다.
Gemini 2.5 Flash Image에서 사용할 수 있는 최신 이미지 편집 모델인 Nano Banana의 기능이 입소문을 타고 화제가 되고 있습니다. 이러한 혁신적인 워크플로를 통해 그 이유를 쉽게 알 수 있습니다.
이러한 놀라운 반응을 보면, 기업이 매력, 일관성, 보안을 저해하지 않으면서 그 어느 때보다 더 많은 형식과 채널에서 고품질 미디어를 신속하게 제작하고 개선할 수 있는 능력을 갖추게 되었음이 분명합니다.
이러한 이유로 Google은 Vertex AI 기반의 Gemini 2.5 Flash Image(현재 정식 버전 출시), Veo, Imagen, Gemini 2.5 텍스트 음성 변환을 비롯한 생성형 미디어 모델 제품군 전반에 걸쳐 주요 업데이트를 발표하게 되어 기쁩니다. 이러한 업데이트를 통해 시각, 청각, 동작 등 가장 중요한 모든 형식에서 더 빠르게, 더 세밀하게 제어하며 창작할 수 있습니다. 한번 확인해 보겠습니다.
Vertex AI의 Gemini 2.5 Flash Image 정식 버전 출시
Gemini 2.5 Flash Image의 정식 버전 출시 소식을 전해드립니다. Google의 최첨단 이미지 생성 및 편집 모델은 이제 프로덕션에 즉시 사용 가능하며 Google Cloud의 엔터프라이즈급 인프라와 보안을 기반으로 합니다. 또한 이제 모델이 여러 가로세로 비율로 이미지를 생성하고 일괄 처리를 지원합니다.
Gemini 2.5 Flash Image는 이미 놀라운 수준으로 도입되고 있습니다. 기업이 Gemini 2.5 Flash Image가 가진 창의성의 한계를 넓히고 있는 한 가지 예시를 소개합니다.

“Gemini 2.5 Flash Image와 같은 고품질 AI 도구 덕분에 이제는 말 그대로 한계가 없어졌습니다. 그 결과, 팀의 창의성이 그 어느 때보다 높아졌습니다. 아이디어를 공동으로 구상하고, 더 빠르게 시각화하며, 몇 주가 아닌 며칠 만에 캠페인을 시작할 수 있습니다. 우리의 핵심 사명은 항상 크리에이터와 비즈니스에 가장 진보된 AI 도구를 제공하는 것이며, Gemini 2.5 Flash Image를 제공함으로써 그 약속을 이행하고 있습니다. 지금은 분명 크리에이터가 되기에 가장 흥미로운 시기입니다." - 샤하르 아이젠버그, Artlist.io CMO


"Gemini 2.5 Flash Image는 Mercado Libre의 Photo Studio에서 가능한 작업의 범위를 재정의했습니다. 이 모델의 창의성, 미적 품질, 정확한 요청 사항 이행 능력 덕분에 제품 등록정보가 개선되고 새로운 가능성이 열렸습니다. 오늘날의 유일한 한계는 상상력입니다.” - 프랑코 세이아, Mercado Libre 소프트웨어 개발 관리자
Veo: 향상된 제어 기능으로 새로운 형식의 창작물을 구상하세요
오디오와 대화가 기본으로 포함된 Google의 최신 동영상 생성 모델인 Veo 3는 전례 없는 수준의 제어 기능을 통해 스토리를 생생하게 구현하려는 크리에이터들 사이에서 빠르게 도입되고 있습니다. Google Cloud는 여러분의 의견을 수렴하여 Vertex AI에서 Veo 3를 더욱 강력하게 만들어 주는 새로운 기능을 발표하게 되었습니다.
- 소셜 미디어용 세로 형식 출력: 세로 동영상을 만들고 싶다는 의견을 반영하여 Veo 3 및 Veo 3 Fast가 이제 9:16 가로세로 비율을 지원합니다. 크리에이터는 소셜 미디어 플랫폼의 세로 방향에 최적화된 더 크고 몰입감 있는 시각적 콘텐츠를 제작할 수 있습니다. 어색한 자르기는 더 이상 사용하지 마세요.
- 스토리의 흐름과 타이밍 제어: 4초, 6초, 8초의 길이 옵션을 사용하면 전환과 장면 간 삽입을 위해 동영상 콘텐츠를 원활하게 조정하여 필요에 따라 더 유연한 내러티브를 만들 수 있습니다.
이미 많은 고객이 Veo를 활용하여 창의적인 워크플로를 혁신하고 강력한 새로운 방식으로 시청자층과 소통하고 있습니다.

"Palo Alto Networks의 'Be a Genius. Deploy Bravely' 캠페인을 통해 우리는 속도, 창의성, 비용 중 하나를 포기할 필요가 없다는 것을 입증했습니다. Gemini와 Veo 3를 사용하면 이 세 가지를 모두 얻을 수 있습니다. Palo Alto Networks는 고객과 마찬가지로 AI 혁명의 엄청난 가능성을 탐색하고 있습니다. 이 새로운 시대에 가장 현명한 움직임은 AI를 도입하는 것뿐만 아니라 안전하게 도입하는 것입니다." - 켈리 왈더, Palo Alto Networks CMO

“Envato는 창의성의 미래가 크리에이터와 기술 간의 역동적인 파트너십에 있다고 믿어 왔습니다. 따라서 동영상, 이미지, 오디오 전반에 걸쳐 동급 최고의 AI 모델을 무제한 Envato 구독에 직접 통합하고 있습니다. 초기 신호에 따르면 Veo 3와 같은 모델의 사용량이 많아 커뮤니티의 창의성이 가속화되고 있으며, 커뮤니티가 이 과정에서 번창하고 있습니다." - 히샴 아씨, Envato CEO
Vertex AI의 Imagen 4 정식 버전(GA) 출시
Google의 선도적인 텍스트 이미지 변환 모델인 Imagen 4는 창의성과 속도를 위해 설계되었습니다. 실사와 같은 이미지, 선명한 해상도, 텍스트 렌더링 및 서체를 제공하여 그 어느 때보다 빠르게 상상력을 실현할 수 있습니다. Vertex AI에서 정식 버전으로 제공되며 프로덕션에 즉시 사용 가능합니다.
확장 가능한 창의적 솔루션과 생성형 AI 솔루션을 제공하는 브랜드 그룹인 Shutterstock은 Google의 Imagen 4 모델을 사용하여 상업적으로 사용 가능한 고품질 AI 이미지를 제공하고 있습니다.
"Shutterstock의 사명은 비즈니스가 업무를 보다 효과적으로 수행하는 데 필요한 필수적이고 보편적인 요소를 제공하는 것입니다. Google의 Imagen 4 모델을 AI 이미지 생성기에 도입하면서, Shutterstock의 팀은 아이디어를 시장 출시 가능한 시각 자료로 그 어느 때보다 쉽게 몇 초 만에 전환하여 영향력을 발휘하고 있습니다. Imagen 4를 사용하면 고객이 기대하는 기준을 충족하는 고품질의 상업용 결과물을 제공할 수 있습니다. 이러한 통합을 통해 Shutterstock 고객은 항상 가장 진보된 미래 지향적인 창의적 AI 도구를 갖출 수 있습니다." - 키넌 카담, Shutterstock 선임 제품 관리자
Vertex AI에서 Gemini 2.5 TTS(텍스트 음성 변환) 정식 버전(GA) 출시
강력한 생성형 미디어 기능에는 오디오도 포함됩니다. Vertex AI의 보안과 규모를 바탕으로 Gemini 2.5 텍스트 음성 변환을 활용하여 고품질 음성 애플리케이션을 만들 수 있습니다.
Gemini 2.5 텍스트 음성 변환(TTS)이 Pro 및 Flash 모델 모두에서 정식 버전으로 출시된다는 소식을 전해드립니다. 이 모델은 인간과 유사한 표현과 제어를 우선시하여 음성 애플리케이션을 빌드하는 방식을 혁신합니다.
- 스튜디오급 대화 정식 버전 출시: 끊김이 심한 단일 스피커 시스템에 의존하지 마세요. Gemini 2.5 Flash 및 Gemini 2.5 Pro TTS가 이제 프로덕션에 사용할 수 있게 되어 팟캐스트, 오디오북, 풍부한 대화형 고객 서비스에 대해 단일 API 호출로 동적인 다중 화자 대화를 생성할 수 있습니다.
- 고급 스타일 및 어조 제어: 자연어 프롬프트를 활용하여 텍스트뿐만 아니라 성능까지 제어할 수 있습니다. 이제 음성의 어조, 감정 표현, 억양을 제어하여 브랜드의 목소리를 완벽하게 전달할 수 있습니다.
- 완성도 높은 전달, 전 세계에서 이용 가능: Gemini 2.5 Flash 및 Gemini 2.5 Pro TTS는 이제 70개 이상의 언어로 제공되므로 지역에 관계없이 전 세계 시청자에게 동일한 고품질의 표현력 있는 음성 상호작용 경험을 보장합니다.
언제, 어떤 생성형 미디어 모델을 사용해야 할까요
프로젝트에 적합한 모델을 선택할 때 선택의 폭이 중요하다는 것을 잘 알고 있기 때문에 엔터프라이즈급 작업을 위한 다양한 옵션을 제공합니다. 어디서부터 시작해야 할지 잘 모르겠다면 다음의 간단한 요약본을 참고하세요.
- 장면, 캐릭터, 내러티브 흐름을 세밀하게 제어하면서 역동적인 고화질 동영상을 제작해야 하는 워크플로에는 Veo 3를 선택하세요. 소셜 미디어 콘텐츠, 마케팅 캠페인, 모션을 통해 스토리를 생생하게 전달하는 것이 중요한 모든 프로젝트에 적합합니다. 입력은 텍스트, 이미지 또는 이 둘의 조합일 수 있습니다. Veo 3의 최신 가격은 여기에서 확인하세요.
- 이미지 생성을 시작할 때 또는 워크플로가 반복적이고 시각적 일관성이 높은 이미지를 생성하거나 편집해야 하는 경우 Gemini 2.5 Flash Image를 선택하세요. 대화형 편집, 스케치-이미지 작업, 스타일 전송, 기존 시각적 요소 조정에 적합합니다. 입력은 이미지와 텍스트 프롬프트의 조합인 경우가 많습니다.
- 워크플로가 더 빠른 속도와 더 높은 해상도로 텍스트에서 완전히 새로운 이미지를 생성하는 데 중점을 두고 있다면 Imagen 4를 선택하세요. Imagen 4는 속도와 해상도가 가장 중요한 대량 텍스트-이미지 변환 애플리케이션을 위해 빌드되었습니다.
- 워크플로가 고품질의 감정 표현이 풍부한 오디오로 텍스트를 생생하게 전달하는 데 중점을 두고 있다면 Gemini 2.5 Flash 또는 Gemini 2.5 Pro TTS(텍스트 음성 변환)를 선택하세요. 이 모델은 멀티 스피커 합성, 게임 및 엔터테인먼트를 위한 동적 캐릭터 음성을 포함하여 팟캐스트, e-러닝과 같은 콘텐츠에 대한 전문적인 내레이션과 실감 나는 음성 에이전트를 만드는 데 적합합니다. 입력은 텍스트입니다.
Vertex AI에서 엔터프라이즈급 창의력을 발휘해 보세요
Gemini 2.5 Flash Image, Veo 3, Imagen 4, Gemini 2.5 TTS는 오늘부터 Vertex AI에서 사용할 수 있습니다.
Vertex AI Studio를 살펴보고 지금 바로 Gemini 2.5 Flash Image와 Gemini 2.5 TTS를 사용해 보세요. Veo 3 및 Imagen 4를 사용하려면 Vertex AI Media Studio에서 시작하세요.