Vertex AI는 동영상, 이미지, 음성, 음악 전반에 걸쳐 생성형 미디어 모델을 제공하는 유일한 플랫폼입니다

Warren Barkley
Senior Director, Product Management, Google Cloud
* 본 아티클의 원문은 2025년 4월 10일 Google Cloud 블로그(영문)에 게재되었습니다.
Google Cloud는 Google의 텍스트 음악 변환 모델인 Lyria를 Vertex AI의 프리뷰 버전에 허용 목록으로 추가하여 생성형 미디어에 대한 투자를 이어가고 있습니다. 음악이 추가됨에 따라 이제 Vertex AI는 동영상, 이미지, 음성, 음악 등 모든 형식의 생성형 미디어 모델을 제공하는 유일한 플랫폼이 되었습니다. 이는 텍스트 프롬프트를 시작으로 이미지부터 음악과 음성이 포함된 완전한 형태의 동영상 애셋까지, 프로덕션에 즉시 사용할 수 있는 완성된 애셋을 빌드할 수 있음을 의미합니다.
Lyria 외에도 Google Cloud의 다른 생성형 미디어 모델을 개선해 줄 새로운 기능과 업데이트가 출시되었습니다.
-
고급 동영상 생성 모델인 Veo 2의 새로운 편집 및 카메라 제어 기능이 허용 목록 추가 방식을 통해 프리뷰 버전으로 제공됩니다. 고객은 이 기능을 사용하여 동영상 콘텐츠를 정교하게 다듬고 다양한 형식으로 재구성할 수 있습니다. 동영상을 창의적으로 제어할 수 있으므로 팀에서 반복 작업을 더 빠르게 수행하고, 고품질 콘텐츠를 제작하며, 후반 작업에 들이는 시간과 비용을 줄일 수 있습니다.
-
Google Cloud의 획기적인 오디오 생성 및 이해 모델인 Chirp 3에 이제 10초 분량의 오디오 입력만으로 커스텀 음성을 생성하는 '즉석 커스텀 음성' 기능이 새롭게 추가됩니다. 또한 고객이 기존 녹음 파일에 AI 기반 내레이션을 삽입하고, 발언자를 구분할 수 있는 음성 스크립트 작성 기능을 추가할 수도 있습니다. 두 기능 모두 허용 목록 추가 방식을 통해 프리뷰 버전으로 제공됩니다.
-
Google Cloud의 가장 뛰어난 텍스트 이미지 변환 모델인 Imagen 3의 경우 이미지에서 누락되거나 손상된 부분을 복원하는 이미지 생성 및 인페인팅 기능이 더욱 개선되었습니다. 최신 업데이트를 통해 객체 삭제 품질이 크게 향상되어 더욱 자연스럽고 매끄러운 편집 경험을 제공합니다.
책임감 있는 방식과 안전에 우선순위를 두는 Google의 AI 원칙에 따라, Google Cloud는 Vertex AI 기반 Lyria, Veo 2, Chirp 3, Imagen 3을 개발하고 배포할 때 SynthID를 통한 디지털 워터마킹, 안전 필터, 데이터 거버넌스와 같은 예방 수단을 기본으로 탑재했습니다. 또한 업계 최초의 면책 접근 방식을 통해 저작권을 포함한 제3자 IP 주장으로부터 Google이 고객을 면책하므로, 고객은 안심하고 Google의 다양한 제품으로 생성된 콘텐츠를 사용할 수 있습니다.
Lyria: 이제 Vertex AI에서 텍스트 음악 변환 모델 사용 가능
Lyria는 미묘한 뉘앙스를 섬세하게 포착하며 다양한 장르의 음악을 풍부하고 세밀하게 표현해 주는 고품질 오디오를 생성합니다. Vertex AI 기반 Lyria는 기업에 다음과 같은 이점을 제공합니다.
-
브랜드 경험 향상: 마케팅 캠페인, 제품 출시 또는 몰입형 매장 경험을 위한 사운드트랙을 브랜드 고유의 정체성에 맞게 빠르게 제작할 수 있습니다. Lyria를 사용하면 타겟 잠재고객의 깊은 공감을 불러일으키는 음향 브랜딩을 통해 정서적 유대감을 형성하고 브랜드 회상도를 높일 수 있습니다.
-
콘텐츠 제작 간소화: 동영상 제작, 팟캐스팅, 디지털 콘텐츠 제작 시 로열티 없는 완벽한 음악을 찾으려다 보면 시간과 비용이 많이 들 수 있습니다. Lyria는 이러한 장애물을 없애 콘텐츠의 분위기, 템포, 내러티브에 알맞은 맞춤 음악 트랙을 단 몇 분 만에 생성할 수 있도록 지원합니다. 덕분에 제작 워크플로를 가속화하고 라이선스 비용을 절감할 수 있습니다.
예를 들면 다음과 같습니다.
흥겨운 비밥 곡을 만들어 줘. 현기증이 날 만큼 빠른 속도로 복잡한 프레이즈를 주고받는 색소폰과 트럼펫 솔로가 중심이 되어야 해. 피아노는 타악기처럼 화성 중심의 반주를 제공하고, 워킹 베이스와 숨 가쁘게 달리는 드럼으로 열광적인 에너지를 뿜어야 해. 짜릿하고 강렬한 느낌을 주어야 해. 늦은 밤 연기 자욱한 재즈 클럽의 분위기를 담아 연주자의 기교와 즉흥 연주가 부각되도록 해 줘. 청취자가 저절로 몸을 들썩거리게 만들어야 해.

새롭고 강력한 편집 기능으로 Veo 2 확장
오늘 Google Cloud는 Veo 2를 통해 동영상을 만들고, 편집하고, 시각 효과를 추가하는 데 도움이 되는 강력한 기능 모음을 프리뷰 버전으로 공개합니다. 이러한 기능을 사용하면 팀에서 동영상 콘텐츠를 수정하고 다양한 형식으로 재구성하여 변화하는 니즈를 충족할 수 있습니다. Vertex AI의 Veo가 생성 도구에서 포괄적인 동영상 제작 및 편집 플랫폼으로 새롭게 태어납니다. 이제 새로운 기능으로 다음과 같은 작업을 수행할 수 있습니다.
- 기존 영상의 수정 및 개선:
-
인페인팅: 수동으로 보정하지 않고도 전문가 수준의 깔끔한 편집이 가능합니다. 동영상에서 원치 않는 배경 이미지, 로고 또는 방해 요소를 삭제할 수 있습니다. 원치 않는 요소가 모든 프레임에서 매끄럽고 완벽하게 사라지므로 원래부터 없었던 것처럼 보이게 할 수 있습니다.


수동 보정 없이도 전문가 수준의 깔끔한 편집 가능
-
-
아웃페인팅: 기존 동영상의 프레임을 확장하여 기존 동영상을 웹 및 모바일 플랫폼에 최적화된 형식으로 변환해 줍니다. 아웃페인팅 기능으로 다양한 화면 크기와 가로세로 비율에 맞게 콘텐츠를 쉽게 조정할 수 있습니다. 예를 들어 소셜 미디어 쇼츠 동영상에 맞게 가로 모드 동영상을 세로 모드로 변환할 수 있습니다.
-


아웃페인팅을 통해 프레임을 확장한 동영상
-
정교한 영화 기법 구현: 팀이 복잡한 프롬프트나 전문적인 지식 없이도 정교한 영화 기법을 쉽게 구현할 수 있도록 샷 구도, 카메라 각도, 페이싱을 지정하는 새로운 기능도 포함되어 있습니다. 예를 들어 카메라 사전 설정을 사용하여 카메라를 다양한 방향으로 움직이거나, 타임랩스 효과를 만들거나, 드론 스타일의 촬영 장면을 연출할 수 있습니다.

- 두 개의 기존 애셋을 연결하여 일관성 있는 동영상 만들기(보간 유형): 보간 유형을 사용하면 동영상 시퀀스의 시작과 끝을 정의할 수 있으므로 Veo에서 연결 프레임을 원활하게 생성할 수 있습니다. 이렇게 하면 전환도 매끄럽고 시각적 연속성도 유지되어 전문적인 수준의 완성도 높은 최종 결과물을 만들 수 있습니다.


보간 유형을 통해 프레임 간에 매끄러운 전환 생성
Chirp 3: 즉석 커스텀 음성 및 스크립트 작성 기능 업데이트
지난달 Google Cloud는 획기적인 오디오 이해 및 생성 모델인 Chirp 3을 Vertex AI에 통합했습니다. Chirp 3의 새로운 HD 음성 기능은 8가지 발언자 옵션을 통해 35개 이상의 언어로 실제처럼 자연스러운 음성을 제공합니다.
다음 두 가지 새로운 기능을 소개합니다.
-
Chirp 3: 즉석 커스텀 음성이 허용 목록 추가 방식을 통해 정식 버전으로 제공됩니다. 이제 10초 분량의 오디오 입력으로 사실적인 커스텀 음성을 생성할 수 있습니다. 이를 통해 기업은 일관된 브랜드 아이덴티티를 유지하면서 콜센터를 맞춤설정하고, 사용 가능한 콘텐츠를 개발하고, 고유한 브랜드 음성을 구축할 수 있습니다. 책임감 있는 사용을 보장하기 위해 즉석 커스텀 음성에 안전 기능이 기본 탑재되어 있으며, 허용 목록을 추가할 때는 적절한 음성 사용 권한을 인증하기 위한 엄격한 검토 절차를 거쳐야 합니다.
-
Chirp 3: Transcription with Diarization이 이제 허용 목록 추가 방식을 통해 프리뷰 버전으로 제공됩니다. 이 강력한 기능은 여러 발언자의 음성이 포함된 녹음 파일에서 개별 발언자의 음성을 정확하게 식별하고 분리하여 회의 요약, 팟캐스트 분석, 다자간 통화 녹음과 같은 적용 사례에서 스크립트 작성의 명확성과 사용성을 크게 개선합니다.
Imagen 3: Imagen 품질 및 편집 기능 개선
지난 1년 동안 Google Cloud는 품질이 가장 뛰어난 텍스트 이미지 변환 모델인 Imagen 3을 크게 개선했습니다. 덕분에 이전 모델보다 더 뛰어난 디테일과 풍부한 조명, 산만함을 줄인 아티팩트를 갖춘 이미지를 생성할 수 있게 되었습니다.

Imagen 3 편집 기능은 이미지를 세부적으로 다듬고 맞춤화할 수 있는 강력하고 사용자 친화적인 방법을 제공합니다. Google Cloud는 이미지에서 누락되거나 손상된 부분을 복원하는 Imagen 3 인페인팅 기능을 크게 개선했습니다. 최신 업데이트를 통해 객체 삭제 품질이 크게 향상되어 더욱 자연스럽고 매끄러운 편집 경험을 제공합니다. 다음은 사진에서 원치 않는 객체, 흠집, 방해 요소를 빠르게 삭제하는 방법을 보여주는 예시입니다.


원치 않는 객체 삭제 등 간편하게 이미지를 수정하는 방법
기업의 안전 및 보안을 고려하여 빌드
보안을 유지하며 안전하고 책임감 있게 AI를 설계하고 개발하는 것이 무엇보다 중요합니다. Google의 AI 원칙에 따라 Vertex AI 기반의 Lyria, Veo 2, Chirp 3, Imagen 3은 안전을 최우선으로 하여 개발되었습니다.
-
디지털 워터마킹: Google DeepMind의 SynthID는 Imagen, Veo, Lyria에서 생성하는 모든 이미지, 동영상, 오디오 프레임에 보이지 않는 워터마크를 삽입하여 잘못된 정보와 잘못된 출처 지정 문제를 줄이는 데 도움이 됩니다.
-
안전 필터: Veo, Imagen, Lyria, Chirp에는 유해한 콘텐츠 생성을 방지하고 Google의 책임감 있는 AI 원칙을 준수하는 데 도움이 되는 보호 장치가 내장되어 있습니다. Google Cloud는 모델의 안전성과 개인 정보 보호 기능을 개선하기 위해 지속적으로 새로운 기술에 투자할 것입니다.
-
데이터 거버넌스: Google Cloud의 기본 제공 데이터 거버넌스 및 개인 정보 보호 설정에 따라, Google은 모델을 학습시키는 데 고객 데이터를 사용하지 않습니다. 고객 데이터는 오직 고객의 지시에 따라서만 처리됩니다.
-
저작권 면책: 해당하는 생성형 AI 서비스에 대한 Google의 면책 접근 방식은 저작권에 대한 우려를 해소해 줍니다.
Vertex AI의 생성형 미디어 모델로 가치를 창출하고 있는 고객들
생성형 AI는 더 이상 미래의 개념이 아닙니다. 실제로 비즈니스 성과를 내는 강력한 도구입니다. WPP, Agoda, Bending Spoons, Monks.Flow, The Brandtech Group, Bloomberg Connects와 같은 기업이 Google Cloud의 생성형 미디어 모델을 프로덕션에 사용하고 있습니다. 여러 선도적 기업이 Google Cloud의 생성형 미디어 기능을 어떻게 활용하고 있는지 몇 가지 구체적인 예를 살펴보겠습니다.
- Goodby Silverstein & Partners: 1937년 살바도르 달리는 '말안장 샐러드 위의 기린들'이라는 초현실적인 영화적 비전을 제시했습니다. 시대를 너무 앞서간 나머지 이 작품은 거의 1세기 동안 스케치와 메모로만 존재했습니다. 초현실주의적 상상을 영화로 구현할 수 있는 강력한 도구인 Veo 2를 사용해 Goodby Silverstein & Partners와 The Dalí Museum이 마침내 그 비전을 실현했습니다.
“달리가 상상한 영화적 비전은 너무나도 초현실적이고 관습에서 벗어난 것이었기에 그의 생전에는 이 영화를 실제로 구현할 수 없었습니다. 그러나 이제 Veo 2와 Imagen 3의 놀라운 기능 덕분에 복제가 아닌 진정한 재현으로서 그 비전을 실현할 수 있게 되었습니다. 지금까지 해온 일 중 가장 창의적이고 흥미로운 작업이라고 할 수 있습니다.” – Jeff Goodby, Goodby Silverstein & Partners 공동 회장

L'Oreal Groupe:
L'Oreal Groupe은 Veo와 Imagen을 활용하여 고품질 동영상 및 이미지 애셋의 엔드 투 엔드 제작을 혁신하고 있으며, 이를 통해 전 세계 마케팅 이니셔티브 전반에서 창의적인 탐색을 촉진함과 동시에 신뢰할 수 있는 AI에 대한 약속을 충실히 지키고 있습니다.
"Veo와 Imagen을 제작 과정에 통합함으로써 당사는 마케팅 콘텐츠 제작 속도를 높일 뿐만 아니라 창의성에 접근하는 방식도 바꾸고 있습니다. 이러한 모델은 창의성을 발휘하는 데 도움을 주는 강력한 파트너로서 팀이 새로운 아이디어를 실험하고 시장에 대응할 수 있도록 자신감을 불어넣어 줍니다. 당사는 신뢰할 수 있는 AI라는 가치를 지키면서 20개 이상의 더 많은 국가와 언어로 양질의 동영상 및 이미지 제작을 확대하고 있습니다." – Thomas Ménard, L’Oreal Groupe AI 센터 지원 부문 관리자
Kraft Heinz:
Kraft Heinz의 Tastemaker 플랫폼은 Veo 2와 Imagen 3을 활용하여 팀의 역량을 강화하고 광고 소재 및 캠페인 개발 프로세스를 크게 가속화하고 있습니다.
"Kraft Heinz는 Vertex AI 기반 Veo 2를 Tastemaker 플랫폼에 통합함으로써 광고 소재 개발 워크플로에서 전례 없는 속도와 효율성을 확보했습니다. 예전에는 8주가 걸리던 작업이 이제는 8시간밖에 걸리지 않아 비용 절감 효과도 상당합니다. 브랜드 인텔리전스에 대해 심층 학습된 Google Cloud AI를 Tastemaker 플랫폼 내에 구현함으로써 혁신 및 크리에이티브팀이 콘텐츠를 빠르게 프로토타입으로 제작하고, 테스트하고, 배포할 수 있게 되었습니다. 덕분에 당사의 상징적인 브랜드를 구현하는 방식을 혁신할 수 있었습니다." – Justin Thomas, 디지털 경험 및 성장 부문 책임자
