멀티모달 모델은 텍스트, 이미지, 오디오를 포함한 다양한 입력을 프롬프트로 처리하고 이러한 프롬프트를 소스 유형뿐만 아니라 다양한 출력으로 변환할 수 있습니다.
신규 고객은 최대 $300의 무료 크레딧을 받아 Vertex AI 및 기타 Google Cloud 제품에서 멀티모달 모델을 사용해 볼 수 있습니다.
개요
멀티모달 모델은 이미지, 동영상, 텍스트 등 다양한 형식의 정보를 처리할 수 있는 ML(머신러닝) 모델입니다. 예를 들어 Google의 멀티모달 모델인 Gemini는 쿠키 접시 사진을 수신하여 응답으로 레시피 텍스트를 생성할 수 있으며 그 반대의 경우도 가능합니다.
생성형 AI는 ML 모델을 사용하여 일반적으로 단일 유형의 프롬프트로 텍스트, 이미지, 음악, 오디오, 동영상 등의 새로운 콘텐츠를 생성하는 것을 포괄하는 용어입니다. 멀티모달 AI는 이러한 생성 기능을 확장하여 이미지, 동영상, 텍스트 등 다양한 형식의 정보를 처리합니다. 멀티모달리티는 AI가 다양한 감각 모드를 처리하고 이해하는 기능을 제공하는 것으로 생각할 수 있습니다. 실제로 이는 사용자가 하나의 입력과 하나의 출력 유형으로 제한되지 않으며, 거의 모든 입력을 포함하는 모델이 사실상 모든 콘텐츠 유형을 생성하도록 프롬프트할 수 있다는 의미입니다.
Gemini는 Google DeepMind팀의 멀티모달 모델로 이미지뿐만 아니라 텍스트, 코드, 동영상 프롬프트로도 사용할 수 있습니다. Gemini는 처음부터 텍스트, 이미지, 동영상, 오디오, 코드를 원활하게 추론할 수 있도록 설계되었습니다. Vertex AI에서의 Gemini는 프롬프트를 사용하여 이미지에서 텍스트를 추출하고, 이미지 텍스트를 JSON으로 변환하고, 업로드된 이미지에 대한 답변을 생성할 수도 있습니다.
멀티모달 AI와 멀티모달 모델은 개발자가 차세대 애플리케이션에서 AI의 기능을 빌드하고 확장하는 방식에 있어 획기적인 발전을 의미합니다. 예를 들어 Gemini는 Python, Java, C++, Go 등 세계에서 가장 많이 사용되는 프로그래밍 언어를 이해하고 설명하며 고품질 코드를 생성할 수 있으므로 개발자는 더 많은 기능을 갖춘 애플리케이션을 빌드하는 데 집중할 수 있습니다. 멀티모달 AI의 잠재력은 AI가 스마트 소프트웨어보다는 전문가의 조수나 어시스턴트에 가까운 세계에 더 가까이 다가갈 수 있게 해줍니다.
멀티모달 AI의 이점은 개발자와 사용자에게 고급 추론, 문제 해결, 생성 기능을 갖춘 AI를 제공한다는 것입니다. 이러한 발전은 차세대 애플리케이션이 우리의 업무와 생활 방식에 찾아올 변화에 대한 무궁무진한 가능성을 제공합니다. 빌드를 시작하려는 개발자를 위해 Vertex AI Gemini API가 엔터프라이즈 보안, 데이터 상주, 성능, 기술 지원과 같은 기능을 제공합니다. 기존 Google Cloud 고객은 지금 바로 Vertex AI에서 Gemini로 프롬프트를 시작할 수 있습니다.
작동 방식
멀티모달 모델은 사실상 모든 입력을 이해하고 처리할 수 있으며, 다양한 유형의 정보를 결합하고, 거의 모든 출력을 생성할 수 있습니다. 예를 들어 사용자는 Vertex AI에서 Gemini를 사용하여 텍스트, 이미지, 동영상 또는 코드로 프롬프트하여 처음 입력된 것과 다른 유형의 콘텐츠를 생성할 수 있습니다.
일반적인 용도
자연어, 코드 또는 이미지를 사용하여 Gemini 모델을 테스트합니다. 이미지에서 텍스트를 추출하고, 이미지 텍스트를 JSON으로 변환하는 샘플 프롬프트를 사용해 보세요. 업로드된 이미지에 대한 답변을 생성하여 차세대 AI 애플리케이션을 빌드할 수도 있습니다.
자연어, 코드 또는 이미지를 사용하여 Gemini 모델을 테스트합니다. 이미지에서 텍스트를 추출하고, 이미지 텍스트를 JSON으로 변환하는 샘플 프롬프트를 사용해 보세요. 업로드된 이미지에 대한 답변을 생성하여 차세대 AI 애플리케이션을 빌드할 수도 있습니다.