Vertex AI의 최신 멀티모달 모델인 Gemini 1.5 모델을 사용해 보고 100만 개의 토큰 컨텍스트 윈도우로 빌드할 수 있는 항목을 확인해 보세요. Vertex AI의 최신 멀티모달 모델인 Gemini 1.5 모델을 사용해 보고 100만 개의 토큰 컨텍스트 윈도우로 빌드할 수 있는 항목을 확인해 보세요.

Gemini 모델 강점 및 한도

Gemini 모델 장점

다음은 Gemini 1.0 모델의 몇 가지 멀티모달 장점입니다.

사용 사례	설명
정보 탐색	세계 지식을 이미지 및 동영상에서 추출한 정보와 혼합합니다.
객체 인식	이미지 및 동영상에 포함된 객체에 대해 세밀하게 조정된 식별과 관련된 질문에 답변합니다.
디지털 콘텐츠 이해	질문에 답변하고 인포그래픽, 차트, 그림, 테이블, 웹페이지 등 다양한 콘텐츠로부터 정보를 추출합니다.
정형화된 콘텐츠 생성	제공된 프롬프트 지침에 따라 HTML 및 JSON과 같은 형식으로 응답을 생성합니다.
자막 생성/설명	다양한 수준의 세부정보를 사용해서 이미지 및 동영상에 대한 설명을 생성합니다. 이미지/동영상에 대해 다음 프롬프트에서 시작하고 반복 처리를 통해 보다 구체적인 설명을 얻는 것이 좋습니다. 이미지: "이 이미지에 대해 설명해줄 수 있나요?" 동영상: "이 동영상에서 진행되고 있는 상황에 대해 설명해줄 수 있나요?"
외삽	위치, 이미지 또는 동영상에서 이전/다음/중간에 발생할 수 있는 상황에 따라 확인할 추가 항목을 제안하고 시각적 입력을 기반으로 이야기 쓰기와 같은 창의적인 사용을 지원합니다.

Gemini의 제한사항

Gemini 1.0 모델에는 다음과 같은 제한사항이 있습니다.

제한사항	설명
공간 추론	이미지에서 정확한 객체/텍스트 지역화가 어려울 수 있습니다. 회전된 이미지를 이해하는 데에는 정확도가 저하될 수 있습니다.
개수 계산	특히 가려진 객체의 경우 대략적인 객체 수만 제공할 수 있습니다.
긴 동영상 이해	개별 형식(개별 이미지 처리와 다름)으로 동영상을 지원할 수 있습니다. 하지만 모델은 연속적인 동영상 자체(오디오 제외)가 아닌 비연속적인 이미지 프레임 집합으로부터 정보를 수신합니다. Gemini는 또한 동영상이 2분을 초과할 경우 어떠한 정보도 추출하지 않습니다. 조밀한 콘텐츠가 포함된 동영상의 성능을 향상시키려면 동영상을 줄여서 모델이 더 많은 동영상 콘텐츠 부분을 캡처하도록 합니다.
복잡한 지침 수행	여러 추론 단계가 필요한 태스크는 어려울 수 있습니다. 지침을 나누거나 효율적인 안내를 위해 퓨샷 예시를 제공하는 것이 좋습니다.
의료 용도	의료용 영상(예: X선 및 CT 촬영)을 해석하거나 의료 조언을 제공하는 데 적합하지 않습니다.
멀티턴(멀티모달) 채팅	챗봇 기능 또는 채팅 톤으로 질문에 답변하도록 학습되지 않았으며 멀티턴 대화에서 효율이 저하될 수 있습니다.

다음 단계

시작하려면 멀티모달 프롬프트 테스트를 참조하세요.