이 페이지에서는 지도 학습을 사용하여 오디오 데이터에서 Gemini를 미세 조정하는 데 필요한 기본 요건과 자세한 안내를 제공합니다.
사용 사례
오디오 모델을 조정하면 특정 요구사항에 맞게 모델을 조정하여 성능을 향상시킬 수 있습니다. 여기에는 다양한 악센트에 대한 음성 인식 개선, 음악 장르 분류 미세 조정, 소리 이벤트 감지 최적화, 오디오 생성 맞춤설정, 소음 환경 적응, 오디오 품질 개선, 오디오 환경 맞춤설정이 포함될 수 있습니다. 다음은 몇 가지 일반적인 오디오 조정 사용 사례입니다.
향상된 음성 어시스턴트:
- 음성 음식 주문: 원활한 음식 주문 및 배달을 위한 음성 인식 시스템을 개발하세요.
오디오 콘텐츠 분석:
- 자동 스크립트 작성: 시끄러운 환경에서도 매우 정확한 스크립트를 생성합니다.
- 오디오 요약: 팟캐스트 또는 오디오북의 핵심사항을 요약합니다.
- 음악 분류: 장르, 분위기 또는 기타 특징을 기준으로 음악을 분류합니다.
접근성 및 보조 기술:
- 실시간 자막: 이벤트 또는 영상 통화에 실시간 자막을 제공합니다.
- 음성 제어 애플리케이션: 음성으로 완전히 제어되는 애플리케이션을 개발합니다.
- 언어 학습: 발음에 관한 맞춤 피드백을 제공하는 도구를 만듭니다.
제한사항
- 예시당 최대 오디오 길이: 10분
- 예시당 최대 오디오 파일 수: 1
- 최대 오디오 파일 크기: 20MB
오디오 샘플 요구사항에 대한 자세한 내용은 오디오 인식 (음성만) 페이지를 참고하세요.
데이터 세트 형식
다음은 오디오 데이터 세트 예시입니다.
일반적인 형식 예시는 Gemini 1.5 Pro 및 Gemini 1.5 Flash를 위한 데이터 세트 예시를 참조하세요.
{
"contents": [
{
"role": "user",
"parts": [
{
"fileData": {
"mimeType": "audio/mpeg",
"fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
}
},
{
"text": "Please summarize the conversation in one sentence."
}
]
},
{
"role": "model",
"parts": [
{
"text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
}
]
}
]
}
다음 단계
- Gemini 오디오 이해 모델에 대한 자세한 내용은 오디오 이해 (음성만)를 참고하세요.
- 조정을 시작하려면 지도 미세 조정을 사용하여 Gemini 모델 조정을 참조하세요.
- 생성형 AI 기술 자료를 구축하는 솔루션에서 지도 미세 조정을 사용하는 방법을 알아보려면 점프 스타트 솔루션: 생성형 AI 기술 자료를 참조하세요.