Gemini 2.0 Flash는 텍스트, 음성, 이미지를 비롯한 다양한 모달에서 응답 생성을 지원합니다.
텍스트 생성
Gemini 2.0 Flash는 Google Cloud 콘솔, REST API, 지원되는 SDK를 사용하여 텍스트 생성을 지원합니다. 자세한 내용은 텍스트 생성 가이드를 참고하세요.
음성 생성 (사전 체험판/허용 목록)
Gemini 2.0은 새로운 멀티모달 생성 기능인 텍스트 음성 변환을 지원합니다.
텍스트 음성 변환 기능을 사용하면 모델에 인간의 음성처럼 들리는 고품질 오디오 출력 (say "hi everyone"
)을 생성하도록 요청할 수 있으며, 음성을 조정하여 출력을 더욱 세부적으로 조정할 수 있습니다.
이미지 생성 (사전 체험판/허용 목록)
Gemini 2.0은 인라인 이미지로 텍스트를 출력하는 기능을 지원합니다. 이를 통해 Gemini를 사용하여 대화식으로 이미지를 수정하거나 멀티모달 출력(예: 한 번에 텍스트와 이미지가 포함된 블로그 게시물)을 생성할 수 있습니다. 이전에는 여러 모델을 연결해야 했습니다.
이미지 생성은 비공개 실험 버전으로 제공됩니다. 다음과 같은 모달리티와 기능을 지원합니다.
- 텍스트 이미지 변환
- 프롬프트 예: '배경에 불꽃놀이가 있는 에펠탑 이미지를 생성해 줘'
- 텍스트를 이미지 및 텍스트로 변환(교차 삽입)
- 프롬프트 예: "파에야 레시피를 그림과 함께 생성해 줘. 레시피를 생성할 때 텍스트와 함께 표시할 이미지를 만듭니다."
- 이미지 및 텍스트에서 이미지 및 텍스트(교차)로 변환
- 프롬프트 예: (가구가 비치된 방의 이미지 포함) "내 공간에 어울리는 다른 색상의 소파가 있나요? 이미지를 업데이트해 주시겠어요?"
- 이미지 수정 (텍스트 및 이미지 대 이미지)
- 프롬프트 예시: '이 이미지를 만화처럼 수정하세요.'
- 프롬프트 예: [고양이 이미지] + [베개 이미지] + "이 베개에 내 고양이의 크로스 스티치 이미지를 만들어 줘."
- 멀티턴 이미지 수정 (채팅)
- 프롬프트 예: [파란색 자동차 이미지를 업로드하세요.] "이 차를 컨버터블로 바꿔 줘." "이제 색상을 노란색으로 변경하세요."
- 워터마킹
- 생성된 모든 이미지에는 SynthID 워터마크가 포함됩니다.
제한사항:
- 사람을 생성하거나 업로드된 사람의 이미지를 수정하는 것은 허용되지 않습니다.
- 최상의 성능을 위해 다음 언어를 사용하세요. EN, es-MX, ja-JP, zh-CN, hi-IN
- 이미지 생성은 오디오 또는 동영상 입력을 지원하지 않습니다.
- 이미지 생성이 항상 트리거되지는 않을 수 있습니다.
- 모델은 텍스트만 출력할 수 있습니다. 이미지 출력을 명시적으로 요청해 보세요(예: '이미지 생성', '진행 중 이미지 제공', '이미지 업데이트').
- 모델이 생성을 중단할 수 있습니다. 다시 시도하거나 다른 프롬프트를 사용해 보세요.