Vertex AI에서 Imagen 3를 시작하기 위한 개발자 가이드
Katie Nguyen
Developer Relations Engineer
* 본 아티클의 원문은 2024년 8월 30일 Google Cloud 블로그(영문)에 게재되었습니다.
지난 몇 개월 동안 Vertex AI에서 Imagen 3 기능을 테스트한 초기 사용자로부터 공유받은 귀중한 의견을 통해 사용자들이 멋진 시각적 요소를 생성하고 실용적인 창작 애플리케이션을 지원하는 AI 모델을 원하고 있다는 사실이 명확해졌습니다. Google Cloud에서는 사용자 의견에서 다음과 같은 세 가지 공통 주제를 확인했습니다.
-
뛰어난 품질의 다양한 예술적 스타일과 형식에 대한 요구
-
엄격한 프롬프트 준수와 신속한 이미지 생성에 대한 요구
-
SynthID 워터마크 삽입 및 고급 안전 필터를 활용해 신뢰를 형성하고 보호를 강화하는 제어 기능
이 게시물에서는 이러한 개념을 각각 자세히 살펴보겠습니다. 또한 Imagen 3를 최대한 활용할 수 있도록 코드 예시와 최적의 프롬프트 작성 방법을 제공해 드리겠습니다.
엄격한 품질 및 다기능성
Imagen 3는 생성 이미지의 품질과 제어 기능 면에서 새로운 기준을 제시합니다. 이 텍스트 이미지 변환 모델은 탁월한 구도, 선명도, 색상 정확성, 해상도를 갖춘 실사 수준의 시각적 요소를 생성합니다. Imagen 3에서는 더 광범위한 예술적 스타일과 형식을 탐색할 수 있습니다. 실사 수준의 작품부터 독특한 클레이 애니메이션 장면에 이르기까지 이 모델의 폭넓은 스타일과 형식은 나만의 독창적인 예술적 비전을 펼칠 수 있는 도구가 됩니다.
실사 전환 기능을 시연하기 위해 새로운 요리책 표지의 이미지 목업을 생성하는 예시를 살펴보겠습니다. 다음 프롬프트를 사용하면 디테일과 구도, 실사 품질이 돋보이는 이미지를 생성할 수 있습니다.


텍스트 렌더링
Imagen 3는 이미지 내 텍스트 렌더링에서도 새로운 가능성을 제시합니다. 예를 들어 이 기능을 활용하여 인사 카드, 포스터, 소셜 미디어 게시물의 이미지를 생성할 때 다양한 글꼴과 색상의 캡션을 적용해 볼 수 있습니다. 이 기능은 정말 간단합니다. 넣고자 하는 짧은 텍스트 설명을 프롬프트에 추가하기만 하면 됩니다. 책 제목을 추가하여 요리책 표지를 다시 생성해 보겠습니다.


창작 의도에 가까운 결과
Imagen 3는 자연어로 작성된 설명을 속뜻까지 파악하여 사용자 의도에 최대한 부합하는 시각적 요소로 출력할 정도의 프롬프트 이해력을 갖추고 있습니다. 카메라 각도, 렌즈 유형, 이미지 구도와 같은 세부 사항까지 설명에서 지정할 수 있습니다. Imagen 3는 입력된 프롬프트를 충실히 따르기 때문에 머릿속에서 그린 이미지와 최종적으로 생성된 이미지 간의 간극을 줄입니다. 단순한 피사체, 동작, 배경 프롬프트만 입력하거나 정교하고 입체적인 설명을 입력해도 됩니다. 모델은 창작 프로세스에 맞춰 광범위한 스타일을 지원합니다.
Imagen 3는 정교한 프롬프트도 잘 처리하기 때문에 구체적으로 입력할수록 더 높은 품질의 정확한 결과를 얻을 가능성이 높아집니다. 프롬프트를 작성할 때는 다음과 같은 몇 가지 옵션을 고려하세요.
-
배치: 피사체의 위치를 지정하여 장면을 설명하세요.
-
조명: 부드럽거나 강한 조명으로 분위기를 조성하고, 조명의 방향과 초점을 제어하세요.
-
각도 및 렌즈: 카메라 각도와 렌즈 선택을 통해 심도와 원근감을 더하세요.
-
스타일: 실사 수준을 넘어 디지털 아트, 영화, 빈티지, 미니멀리즘 이미지 등 다양한 스타일을 생성하세요.
지연 시간 단축
Imagen 3는 역대 최고 품질의 모델이지만 생성 속도를 최적화한 Imagen 3 Fast도 제공하고 있습니다. Imagen 3 Fast는 더 밝고 대비가 높은 이미지에 적합합니다. Imagen 2와 비교해 지연 시간이 40% 더 단축되었음을 알 수 있습니다. 같은 프롬프트를 사용해 두 가지 이미지를 생성하여 두 가지 모델을 시연해 볼 수 있습니다. 앞서 생성한 요리책에 추가할 샐러드 사진을 두 가지 옵션으로 생성해 보겠습니다.


Image generated by Imagen 3 Fast


Image generated by Imagen 3
작품 보호 및 책임감 있는 창작
Imagen 3에는 사용자가 직접 제어하면서 예술적 비전에 집중할 수 있도록 설계된 보호 수단이 기본 제공됩니다. Imagen 3는 Google DeepMind와 파트너십을 맺고 SynthID란 기술을 활용하여 픽셀 수준의 보이지 않는 워터마크를 삽입합니다. 기본적으로 모든 Imagen 3 생성 이미지에 디지털 워터마크가 추가되지만 add_watermark 파라미터를 사용하면 이 기능을 명시적으로 사용 설정할 수 있습니다. API를 사용하여 특정 이미지가 Imagen을 사용해 생성되었는지 여부도 확인할 수 있습니다. 이는 AI 생성 이미지의 진위를 확인하여 투명성을 제공하고 작품의 오용을 방지하는 데 도움이 됩니다.
Imagen 3의 고급 안전 필터를 사용하면 생성된 이미지의 유형이 브랜드 가치나 원칙에 부합하도록 제어할 수도 있습니다. 생성되는 이미지에 적용할 안전 필터 기준을 구성하려면 safety_filter_level을 수정하세요. 안전 수준은 'block_most', 'block_some', 'block_few' 중 하나로 변경할 수 있습니다. 생성되는 인물 유형을 제어하는 안전 설정을 변경하려면 person_generation을 'allow_all', 'allow_adult', 'dont_allow' 중 하나로 수정하세요.
다음 단계
Imagen 3는 현재 허용 목록 추가 방식으로 정식 제공되고 있습니다. 이미 Imagen 3를 경험해 본 개발자는 그 실사 수준과 품질을 높게 평가하고 있습니다. 한 얼리 어답터의 말에 따르면 다음과 같습니다.
“전 세계 곳곳의 다양한 장소와 피사체를 정확하고 사실적으로 포착하는 능력이 특히 인상적이었습니다. 뛰어난 디테일 수준은 확실히 Imagen 3의 강력한 경쟁력이 될 것입니다.” – 한성민
현재 Google Cloud에서는 사용 사례가 잘 정의된 비즈니스 개발자를 대상으로 Vertex AI 기반 Imagen 3에 대한 액세스 권한을 우선적으로 제공하고 있습니다. 이 양식을 통해 액세스를 신청할 수 있습니다. 신청서를 검토하는 대로 최대한 빨리 연락드리겠습니다.
그동안에 아래 리소스에서 Imagen 3에 관해 자세히 알아보고 애플리케이션에 Imagen 3 기능을 통합하는 방법을 살펴보실 수 있습니다.