오디오 조정

이 페이지에서는 지도 학습을 사용하여 오디오 데이터에서 Gemini 미세 조정에 필요한 기본 요건과 자세한 안내를 제공합니다.

사용 사례

오디오 모델을 조정하면 특정 니즈에 맞게 모델을 조정하여 성능을 향상시킬 수 있습니다. 여기에는 다양한 악센트에 대한 음성 인식 개선, 음악 장르 분류 미세 조정, 소리 활동 감지 최적화, 오디오 생성 맞춤설정, 소음 환경에 적응, 오디오 품질 향상, 오디오 환경 맞춤설정이 포함될 수 있습니다. 다음은 몇 가지 일반적인 오디오 조정 사용 사례입니다.

  • 향상된 음성 어시스턴트:

    • 음성 음식 주문: 원활한 음식 주문과 배달을 위한 음성 활성화 시스템을 개발합니다.
  • 오디오 콘텐츠 분석:

    • 자동 스크립트 작성: 시끄러운 환경에서도 매우 정확하게 스크립트를 생성합니다.
    • 오디오 요약: 팟캐스트나 오디오북의 핵심사항을 요약합니다.
    • 음악 분류: 장르, 분위기 또는 기타 특징을 기준으로 음악을 분류합니다.
  • 접근성 및 보조 기술:

    • 실시간 자막 생성: 이벤트나 영상 통화에 실시간 자막을 제공합니다.
    • 음성 제어 애플리케이션: 음성으로 완전히 제어되는 애플리케이션을 개발합니다.
    • 언어 학습: 발음에 대한 맞춤형 의견을 제공하는 도구를 만듭니다.

제한사항

Gemini 1.5 Pro

  • 예시당 최대 오디오 길이: 10분
  • 예시당 최대 오디오 파일 수: 1개
  • 최대 오디오 파일 크기: 100MB

Gemini 1.5 Flash

  • 예시당 최대 오디오 길이: 60분
  • 예시당 최대 오디오 파일 수: 1개
  • 최대 오디오 파일 크기: 100MB

오디오 샘플 요구사항에 대한 자세한 내용은 오디오 인식(음성만) 페이지를 참조하세요.

데이터 세트 형식

데이터 세트의 fileUri는 Cloud Storage 버킷의 파일 URI이거나 공개적으로 사용 가능한 HTTP 또는 HTTPS URL일 수 있습니다.

일반적인 형식 예시는 Gemini 1.5 Pro 및 Gemini 1.5 Flash를 위한 데이터 세트 예시를 참조하세요.

다음은 오디오 데이터 세트의 예입니다.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    }, 
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

다음 단계