이 페이지는 Cloud Translation API를 통해 번역되었습니다.

오디오 조정

이 페이지에서는 오디오 데이터에서 지도 학습을 사용한 Gemini 미세 조정에 필요한 기본 요건과 자세한 안내를 제공합니다.

사용 사례

오디오 모델을 조정하면 특정 니즈에 맞게 모델을 조정하여 성능을 향상시킬 수 있습니다. 여기에는 다양한 악센트에 대한 음성 인식 개선, 음악 장르 분류 미세 조정, 소리 활동 감지 최적화, 오디오 생성 맞춤설정, 소음 환경에 적응, 오디오 품질 향상, 오디오 환경 맞춤설정이 포함될 수 있습니다. 다음은 몇 가지 일반적인 오디오 조정 사용 사례입니다.

향상된 음성 어시스턴트:
- 음성 음식 주문: 원활한 음식 주문과 배달을 위한 음성 활성화 시스템을 개발합니다.
오디오 콘텐츠 분석:
- 자동 스크립트 작성: 시끄러운 환경에서도 매우 정확하게 스크립트를 생성합니다.
- 오디오 요약: 팟캐스트나 오디오북의 핵심사항을 요약합니다.
- 음악 분류: 장르, 분위기 또는 기타 특징을 기준으로 음악을 분류합니다.
접근성 및 보조 기술:
- 실시간 자막 생성: 이벤트나 영상 통화에 실시간 자막을 제공합니다.
- 음성 제어 애플리케이션: 음성으로 완전히 제어되는 애플리케이션을 개발합니다.
- 언어 학습: 발음에 대한 맞춤형 의견을 제공하는 도구를 만듭니다.

제한사항

Gemini 2.5 모델

사양	값
예시당 최대 오디오 길이	60분
예시당 최대 오디오 파일 수	1
최대 오디오 파일 크기	100MB

Gemini 2.0 Flash
Gemini 2.0 Flash-Lite

사양	값
예시당 최대 오디오 길이	60분
예시당 최대 오디오 파일 수	1
최대 오디오 파일 크기	100MB

오디오 샘플 요구사항에 대한 자세한 내용은 오디오 인식(음성만) 페이지를 참조하세요.

데이터 세트 형식

데이터 세트의 fileUri는 Cloud Storage 버킷의 파일 URI이거나 공개적으로 사용 가능한 HTTP 또는 HTTPS URL일 수 있습니다.

일반적인 형식 예시는 Gemini용 데이터 세트 예시를 참조하세요.

다음은 오디오 데이터 세트 예시입니다.

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "fileData": {
            "mimeType": "audio/mpeg",
            "fileUri": "gs://cloud-samples-data/generative-ai/audio/pixel.mp3"
            }
        },
        {
          "text": "Please summarize the conversation in one sentence."
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "The podcast episode features two product managers for Pixel devices discussing the new features coming to Pixel phones and watches."
        }
      ]
    }
  ]
}

다음 단계

Gemini 오디오 이해 모델에 대한 자세한 내용은 오디오 인식(음성만) 참고하기
조정을 시작하려면 지도 미세 조정을 사용하여 Gemini 모델 조정 참고하기
생성형 AI 기술 자료를 구축하는 솔루션에서 지도 미세 조정을 사용하는 방법을 알아보려면 점프 스타트 솔루션: 생성형 AI 기술 자료 참고하기