차세대 생성형 AI 미디어 모델로 Vertex AI 확장하기

Katie Nguyen
Developer Relations Engineer
* 본 아티클의 원문은 2025년 05월 21일 Google Cloud 블로그(영문)에 게재되었습니다.
오늘은 Vertex AI의 차세대 생성형 AI 미디어 모델인 Imagen 4, Veo 3, Lyria 2를 소개드리고자 합니다.
Google의 이미지 생성 모델인 Imagen 3는 이미 놀라울 정도로 실사와 유사한 이미지를 생성하는데 쓰이고 있으며, 고객들은 Veo 2를 사용해 이러한 이미지를 고화질 동영상과 애셋으로 변환하고 있습니다. 또한, Google의 고급 AI 음악 생성 모델인 Lyria를 사용해 멋진 동영상에 전문적인 수준의 오디오를 더해 생동감을 불어넣는 모습도 확인할 수 있었습니다.
마케팅, 미디어 등 다양한 산업 분야에서 생성형 AI 미디어 기술에 대한 관심이 고조됨에 따라,스토리텔링은 그 어느 때보다 간편해졌습니다. 사용자는 더 빠르게 캠페인에 사용할 자료를 만들고 획기적인 창작 콘텐츠를 제작하고 있습니다. 각 모델을 살펴보고 지금 바로 시작할 수 있는 방법은 무엇인지 알아보겠습니다.
Imagen 4: 한 차원 높은 고품질 이미지 생성
오늘 Google Cloud는 Vertex AI의 Imagen 4 텍스트 - 이미지 변환 생성 기능을 공개 프리뷰로 출시합니다. Google에서 가장 뛰어난 이미지 생성 모델인 Imagen 4는 다음과 같은 기능을 제공합니다.
-
뛰어난 텍스트 렌더링과 프롬프트 지시사항 준수율
-
모든 스타일에서 획기적인 이미지 품질 향상
-
전 세계 크리에이터를 위한 다국어 프롬프트 지원


프롬프트: 늦은 오후의 부드럽고 따뜻한 햇살이 비치는 전형적인 1960년대 주방을 배경으로 해서 클로즈업하여 분위기 있는 사진을 찍어 주세요. 여기서 핵심 요소는 얼룩 무늬 Formica 조리대 위에 놓여 있는 매력적이고 빈티지한 디자인의 밀가루 포대입니다. 이 빈티지한 포대 자체가 순수한 향수를 불러일으킵니다. 두껍고 약간 질감이 있는 따뜻한 크림 톤의 종이에 'ALL-PURPOSE FLOUR(중력분 밀가루)'라는 문구를 색상은 클래식한 빨간색과 파란색으로, 글꼴은 친근한 느낌의 세리프체나 스크립트체를 사용해 굵은 글씨로 넣고, 멋지게 묶은 밀짚이나 쾌활한 제빵사 캐릭터와 같은 재미있는 일러스트를 넣습니다. 포대 하단에는 작고 굵은 글씨로 'NET WT 5 LBS (80 OZ) 2.27kg(순중량: 5파운드(80온스) 2.27kg)'이 인쇄되어 있습니다. 종이로 된 포대의 가장자리를 각지지 않게 처리하고, 인쇄된 내용에 빈티지한 질감이 살아있어야 하며, 'ALL-PURPOSE FLOUR(중력분 밀가루)' 텍스트가 매력적이어야 하는 등 포대의 디테일에 신경써야 합니다. 금속으로 된 조리대의 가장자리가 부드럽게 빛나는 모습, 흐릿하게 보이는 파스텔 톤의 노란 도자기 타일 벽면과 초점에서 벗어나 있는 빈티지 캔 세트의 모서리까지 1960년대 주방의 흔적이 사진에 은은하게 묻어 있습니다. 피사계 심도가 얕아 아름답게 디자인된 포대에 시선이 고정되며, 따뜻함과 진정성, 향수를 자극하는 감성을 연출합니다.


프롬프트: 고전적인 8비트 비디오 게임을 연상시키는 매력적인 픽셀 아트 스타일을 사용한 네 컷 만화를 그려 주세요. 모양은 단순한 형태를 많이 활용합니다. 녹색, 파란색, 갈색 그리고 공룡을 상징하는 색인 회색과 검은색이 주를 이루는 밝고 절제된 색상 팔레트를 사용합니다. 배경은 픽셀 아트 스타일로 표현된 해변입니다. 첫 번째 컷에는 픽셀 아트 스타일의 Google Chrome 티라노사우르스가 작은 픽셀 선글라스를 쓰고 노란색 픽셀 태양 아래 픽셀 비치 타월에 누워 있는 모습이 그려져 있습니다. 파란색으로 표현된 하늘을 배경으로 픽셀화된 야자수가 살랑살랑 흔들리고 있습니다. 자막 상자에는 픽셀화된 글꼴로 'Even error messages need a vacation(오류 메시지도 휴식이 필요합니다).'라고 적혀 있습니다. 두 번째 컷에서는 픽셀 모래성을 쌓으려는 티라노사우르스가 클로즈업됩니다. 작은 픽셀 팔로 갈색 픽셀 더미를 어색하게 두드리며 집중하는 것처럼 보입니다. 모래 주변에는 작은 픽셀화된 조개가 흩어져 있습니다. 세 번째 컷에서는 게임에서 장애물을 피하는 모습을 모방하여 해변 근처에 심어진 일련의 픽셀화된 선인장을 티라노사우루스가 즐겁게 뛰어 넘는 모습을 보여줍니다. 작게 'Boing! Boing!(보잉! 보잉!)'이라는 음향 효과 텍스트가 점프할 때마다 블록체형 글꼴로 표시됩니다. 픽셀화된 게가 옆에서 픽셀화된 집게발을 흔들며 지켜보고 있습니다. 마지막 컷에서는 티라노사우르스가 블록 모양의 파란색 물 속에서 선글라스를 쓴 채 만족스러운 표정으로 편안하게 물에 떠있는 모습이 그려져 있습니다. 그 위의 작은 생각 말풍선에는 픽셀화된 'Zzz…(쿨쿨…)'라는 글자가 있어 휴식을 나타냅니다.


프롬프트: 운전석 시점에서 조수석에 앉은 빨간 머리 젊은 승객의 옆모습을 마치 영화처럼 촬영하여 선명히 보여줍니다. 그녀의 시선은 앞을 향한 채 고정되어 있으며, 창문 너머로 보이는 먼지가 가득하고 외로운 고속도로를 달리는 데 집중하고 있습니다. 창의 고속도로 뒤로 건조한 대지와 저 멀리 산자락이 아스라이 펼쳐져 있습니다. 그녀의 팔은 창틀이나 핸들에 기대어 있습니다. 옆에 오래된 트럭 내부가 보입니다. 차 문과 마모된 시트의 패브릭이 보입니다. 늦은 오후의 햇살이 긴 그림자를 만들고 따뜻한 빛이 얼굴과 트럭 내부를 부드럽게 비춥니다. 이 앵글은 광활하고 텅 빈 풍경 속에서 그녀의 존재감과 사색적인 상태를 강조합니다.
Vertex AI에서 공개 프리뷰로 제공되는 Imagen 4를 시작하려면 Media Studio를 사용하거나 Python용 Google Gen AI SDK를 사용하는 다음 코드 샘플을 실행하면 됩니다.
Veo 3: 오디오와 음성을 사용해 더 품질 좋은 동영상 생성
Veo 3는 Google DeepMind의 최첨단 기술에 기반한 최신 동영상 생성 모델로, 최고 수준의 성능을 자랑합니다. Veo 3를 사용하면 다음과 같은 기능이 적용된 동영상을 생성할 수 있습니다.
-
텍스트 및 이미지 프롬프트 기반 동영상 생성 시 품질 개선
-
대화, 보이스오버 등 다양한 음성 삽입
-
음악, 음향 효과 등 풍부한 오디오 삽입
다음은 Veo를 사용한 후 생산성과 창의성이 향상되었다는 여러 고객의 사례를 소개합니다.
디지털 결제 업계의 선두 주자인 Klarna는 Vertex AI의 Veo와 Imagen을 활용하여 콘텐츠 제작의 효율성을 높이고 있으며, B-Roll부터 YouTube 범퍼까지 프로덕션 일정을 획기적으로 단축하고 있습니다.
“Klarna는 마케팅 활동에서 혁신의 한계를 뛰어넘을 방법을 끊임없이 모색하고 있으며, Veo는 크리에이티브 워크플로를 혁신한 제품입니다. Veo와 Imagen을 사용해 시간 집약적인 제작 프로세스를 빠르고 효율적인 작업으로 전환하여 콘텐츠 제작을 빠르게 확장할 수 있었습니다. 흥미로운 B-Roll을 제작하거나, 눈길을 끄는 YouTube 범퍼를 만들거나, 역동적인 소셜 미디어 애니메이션을 개발하는 등 이러한 도구로 팀이 더욱 민첩하고 창의적으로 일할 수 있었습니다. 그 결과 참여도와 콘텐츠 실적이 향상되었습니다. Google Cloud로 Klarna는 향후의 상거래를 위한 토대를 마련하고 브랜드를 구현하는 방식을 혁신하고 있습니다.” – David Sandström, Klarna 최고 마케팅 책임자
The Brandtech Group의 대표적인 디지털 마케팅 회사인 Jellyfish는 자사의 업계 최고 AI 마케팅 플랫폼 Pencil에 Veo를 통합하고 Japan Airlines와 협력하여 혁신적인 AI 생성 기내 엔터테인먼트를 제공했습니다.

“Pencil에 Veo 2를 추가하면서 보다 정교한 AI로 마케터들이 단순히 더 빠르고 스마트하게 캠페인을 제작하는 데 그치지 않고 더 대담하고 예술적인 감각까지 캠페인에 담아낼 수 있도록 지원하려는 비전에 한층 더 가까워졌습니다. Pencil의 파일럿은 비용과 TTM(time to market) 효율성을 평균 50% 절감하는 놀라운 성과를 보였습니다. 컨트롤과 품질 면에서의 획기적인 변화로 이전에는 불가능했던 아이디어를 단 몇 분 만에 실제 마케팅 콘텐츠로 바꿀 수 있게 되었습니다. Japan Airlines는 여행 업계에서 생성형 AI를 적용하는 선두 주자이며 다른 브랜드들이 이 사례를 따를 것으로 기대하고 있습니다.” - David Jones, Brandtech 설립자 겸 CEO
Kraft Heinz의 Tastemaker 플랫폼은 Imagen과 Veo를 활용하여 팀의 역량을 한층 강화하고 광고 소재 및 캠페인 개발 프로세스를 크게 가속화하고 있습니다.
“Kraft Heinz는 Vertex AI 기반 Veo와 Imagen을 Tastemaker 플랫폼에 통합함으로써 광고 소재 개발 워크플로에서 전례 없는 속도와 효율성을 확보했습니다. 예전에는 8주가 걸리던 작업이 이제는 8시간밖에 걸리지 않아 비용 절감 효과도 상당합니다.” – Justin Thomas, 디지털 경험 및 성장 부문 책임자
디지털 광고 애셋과 템플릿 분야의 글로벌 리더인 Envato는 Veo 2를 활용하여 새로 출시한 동영상 생성 기능인 VideoGen을 개발했으며, 이를 통해 광고 소재 전문가가 텍스트나 이미지를 실감 나고 영화 같은 고품질 동영상 콘텐츠로 변환할 수 있도록 지원했습니다.
“최고의 동영상 모델을 여러 가지 사용해 보았으며, Veo 2는 다양한 텍스트와 이미지 입력하는 데 있어 속도와 품질 측면에서 가장 인상적인 결과를 도출했습니다. 출시 후 단 며칠 만에 수만 명의 Envato 구독자가 VideoGen을 사용하게 되었으며, 생성된 동영상의 약 60%가 광고 소재 프로젝트에 사용하기 위해 다운로드되었습니다. 3월 이후 Envato의 VideoGen 사용량은 전월 대비 100% 이상 증가했습니다. Google Cloud와 협력하여 Veo를 통해 Envato의 VideoGen 기능을 구현하게 되어 기쁩니다.”라고 Envato의 AI 제품 책임자인 Aaron Rutley는 말했습니다.
작동 방식 확인: Veo 3는 다음 예시에서 보여 주듯이 복잡하고 세부적인 프롬프트 내용까지 정교하게처리할 수 있습니다.

프롬프트: 미디엄 샷으로, 시대극 모험의 배경에 따뜻한 램프 불빛이 어수선한 서재 속 지도 제작자를 비추고 있습니다. 그는 넓은 테이블 위에 오래 되어 보이는 방대한 지도를 펼쳐놓고 꼼꼼히 살펴보고 있습니다. 지도 제작자는 '이 오래된 해도에 따르면, 사라진 섬은 전설이 아닙니다. 즉시 탐험을 준비해야 합니다!'라고 말합니다.

프롬프트: 낮은 각도에서 촬영한 장면으로, 밝은 보라색 벽과 회색 바닥이 있는 방에서 밝은 보라색 문이 열려있어 활기찬 분위기의 야외 풍경으로 이어집니다. 초록빛 풀과 야생화가 현관에서 실내 바닥으로 이어져 있어 공간 사이에 기이한 전환을 만들어 냅니다. 문 너머에는 굴곡진 녹색 언덕에 들꽃이 더 많이 피어 있고, 그 뒤로 밝고 맑은 하늘이 펼쳐집니다. 야외 장면의 전경에 나무 한 그루가 돋보이며 잎사귀가 깊이감을 더하고 있습니다. 햇빛과 자연 요소가 실내 공간의 단순함과 대조를 이루며 경이로움과 함께 탈출하는 느낌을 불러일으킵니다.
Veo 3는 Vertex AI에서 비공개 프리뷰 버전으로 제공되며 앞으로 몇 주 내에 더 많은 사용자에게 제공될 예정입니다. 사전 체험판에 참여를 원하시면 이 양식을 작성해 주세요.
Lyria 2: 음악 생성으로 더 자유롭게 창의성 발휘하기
Google Cloud Next 2025에서 Google은 텍스트 - 음악 변환 모델인 Lyria를 Vertex AI에서 사용할 수 있게 되었다고 발표했습니다. 오늘 Google Cloud는 Vertex AI에서 Lyria 2를 정식 버전으로 출시한다는 소식을 전해드립니다. Google의 최신 음악 생성 모델인 Lyria 2는다양한 스타일의 고음질 음악 생성을 지원합니다. 새로운 차원의 크리에이티브 협업 파트너로서 Lyria 2는 다음과 같은 기능을 제공합니다.
-
텍스트 프롬프트로 고품질 오디오 콘텐츠 생성
-
악기, BPM 등 다양한 음악적 특성에 대해 더욱 세밀하게 다룰 수 있는 기능
Lyria 2로 콘텐츠 제작을 시작하려면 Vertex AI의 Media Studio를 확인하세요. Vertex AI에 액세스하면 텍스트 프롬프트로 음악을 생성하거나 Vertex AI를 통해 모델 API에 액세스할 수 있습니다. 아래의 음악 클립과 프롬프트를 참고하여 새로운 영감을 얻어 보세요.

프롬프트: 신나고 리드미컬한 페루 쿰비아에 사이키델릭한 감각이 더해진 음악. LA의 라틴 음악 페스티벌에서 한 라이브 공연으로 일렉트릭 기타와 베이스가 어우러지는 가운데 팀발레스 타악기가 두드러져 강렬하고 춤추기 좋은 분위기를 자아냄. 활기차고 에너지가 넘침.

프롬프트: 웅장한 오케스트라 영화 음악. 런던의 깨끗한 스튜디오에서 녹음. 100인조 오케스트라. 장엄하고 심오함. 프렌치 호른, 현악기, 팀파니와 같은 악기를 활용해, 고조되는 선율과 극적인 화성 전환, 강렬한 타악 요소가 어우러진 구성. 정교한 오케스트레이션, 풍부한 다이내믹, 깊이 있는 감정 표현이 특징. 주제 중심의 접근 방식으로 영화 같은 장엄하고 경외감을 자아내는 분위기 연출.
Lyria 2를 직접 사용해 본 여러 고객의 사례를 확인해 보세요.
Captions는 사용자가 스튜디오급의 대화형 동영상을 쉽고 빠르게 제작할 수 있도록 지원하는 AI 기반 동영상 제작 도구입니다. Lyria 2를 Mirage Edit 기능에 통합하여 맞춤설정된 사운드로 완성된 동영상을 빠르게 생성할 수 있습니다.
“Captions에서는 Mirage Edit 기능을 통해 이미 구독자가 프롬프트로 이미지, B-Roll 클립, 음성 해설, 전환 효과를 사용한 AI 대화 동영상을 만들 수 있습니다. 이제 Google의 Lyria 2를 기반으로 한 적응형 음악이라는 핵심 요소가 추가됩니다. Lyria는 하나의 프롬프트만으로 대본의 흐름과 속도, 전환 그리고 감정의 리듬에 맞춰 음악을 작곡해 줍니다. 덕분에 고객은 Captions를 벗어나거나 스톡 라이브러리를 들춰보지 않고도 영화 같은 단편 동영상을 제작하고 게시할 수 있습니다.” - Dwight Churchill, Captions.ai 공동 설립자 겸 최고 운영 책임자
Dashtoon 및 DashReels와 같은 디지털 콘텐츠 플랫폼을 소유한 Dashverse는 Vertex AI 기반 Google Lyria 2를 활용하여 차세대 AI 기반 크리에이터에게 고급 음악 생성 기능을 제공하고 있습니다. 사용자는 이 통합 기능을 활용하여 DashReels와 같은 플랫폼에서 자신의 콘텐츠의 스토리와 템포에 맞춰 역동적이고 감성적인 사운드트랙을 제작할 수 있습니다.
“Dashtoon에서 만화를 만들든 DashReels에서 짧은 드라마를 만들든 Dashverse에서는 항상 일상 크리에이터의 역량을 강화하는 데 주력해 왔습니다. DashReels를 통해 역동적이고 감정적으로 공감할 수 있는 스토리텔링으로 전환하면서 표현력과 반응성이 뛰어난 음악 엔진이 필요했습니다. Vertex AI 기반 Lyria 2는 바로 이러한 기능을 제공합니다. 사용자는 스튜디오 수준의 음악 컨트롤 기능을 사용해 오버헤드 없이 감정, 장면, 템포에 맞춰 음악을 조정할 수 있습니다. 사운드트랙을 생성하는 것뿐만 아니라 스토리텔링을 강화하는 기능도 제공합니다. 차세대 AI 기반 크리에이터에게 어떤 세상이 펼쳐질지 기대가 큽니다.” - Soumyadeep Mukherjee, Dashverse CTO
안전하게 만들고 책임감 있게 공유하기
AI 생성 콘텐츠는 보안과 안전이 매우 중요합니다. 따라서 이러한 모델은 내장된 안전 장치와 함께 설계되어 사용자가 창의적인 작업에 집중할 수 있도록 지원합니다. Veo 3, Imagen 4, Lyria 2는 모두 Google DeepMind와의 긴밀한 협력을 통해 안전을 설계의 기본 원칙으로 삼아 개발되었습니다.
워터마크: Veo, Imagen, Lyria로 생성된 모든 창작물은 기본적으로 워터마크를 삽입하는 기술인 SynthID를 활용합니다. 이 워터마크는 AI 생성 미디어를 식별하여 투명성을 보장합니다.
안전 필터: 모든 생성형 AI 미디어 모델의 입력 프롬프트와 출력 콘텐츠는 안전 필터 목록을 기준으로 액세스됩니다. 사용지는 콘텐츠 필터링 강도를직접 설정할 수 있기 때문에 결과물이 브랜드 가치에 부합하도록 조정할 수 있습니다. 시각적 출력 데이터의 경우,인물 이미지 생성도 컨트롤할 수 있습니다.
시작하기
아래 리소스를 확인하여 새로운 모델에 대해 자세히 알아보세요.