오디오 조정

이 페이지에서는 지도 학습을 사용하여 오디오 데이터에서 Gemini를 미세 조정하는 데 필요한 기본 요건과 자세한 안내를 제공합니다.

사용 사례

오디오 모델을 조정하면 특정 요구사항에 맞게 모델을 조정하여 성능을 향상시킬 수 있습니다. 여기에는 다양한 악센트에 대한 음성 인식 개선, 음악 장르 분류 미세 조정, 소리 이벤트 감지 최적화, 오디오 생성 맞춤설정, 소음 환경 적응, 오디오 품질 개선, 오디오 환경 맞춤설정이 포함될 수 있습니다. 다음은 몇 가지 일반적인 오디오 조정 사용 사례입니다.

  • 향상된 음성 어시스턴트:

    • 음성 음식 주문: 원활한 음식 주문 및 배달을 위한 음성 인식 시스템을 개발하세요.
  • 오디오 콘텐츠 분석:

    • 자동 스크립트 작성: 시끄러운 환경에서도 매우 정확한 스크립트를 생성합니다.
    • 오디오 요약: 팟캐스트 또는 오디오북의 핵심사항을 요약합니다.
    • 음악 분류: 장르, 분위기 또는 기타 특징을 기준으로 음악을 분류합니다.
  • 접근성 및 보조 기술:

    • 실시간 자막: 이벤트 또는 영상 통화에 실시간 자막을 제공합니다.
    • 음성 제어 애플리케이션: 음성으로 완전히 제어되는 애플리케이션을 개발합니다.
    • 언어 학습: 발음에 관한 맞춤 피드백을 제공하는 도구를 만듭니다.

제한사항

  • 예시당 최대 오디오 길이: 10분
  • 예시당 최대 오디오 파일 수: 1
  • 최대 오디오 파일 크기: 20MB

오디오 샘플 요구사항에 대한 자세한 내용은 오디오 인식 (음성만) 페이지를 참고하세요.

데이터 세트 형식

다음은 오디오 데이터 세트 예시입니다.

일반적인 형식 예시는 Gemini 1.5 Pro 및 Gemini 1.5 Flash를 위한 데이터 세트 예시를 참조하세요.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

다음 단계