번역 LLM 모델용 지도 미세 조정 데이터 준비

이 문서에서는 번역 LLM 모델의 지도 미세 조정 데이터 세트를 정의하는 방법을 설명합니다. 텍스트 데이터 유형을 조정할 수 있습니다.

지도 미세 조정 데이터 세트 정보

지도 미세 조정 데이터 세트는 선행 학습된 모델을 특정 도메인에 맞게 미세 조정하는 데 사용됩니다. 입력 데이터는 모델이 실제 사용하는 데이터와 유사해야 합니다. 출력 라벨은 각 입력의 정답 또는 결과를 나타내야 합니다.

학습 데이터 세트

모델을 조정하려면 학습 데이터 세트를 제공합니다. 최상의 결과를 얻으려면 100개 예시로 시작하는 것이 좋습니다. 필요한 경우 예시를 최대 수천 개까지 확장할 수 있습니다. 데이터 세트의 품질이 수량보다 훨씬 중요합니다.

제한사항:

  • 예시당 최대 입력 및 출력 토큰 수: 1,000
  • 학습 데이터 세트의 최대 파일 크기: JSONL의 경우 최대 1GB

검사 데이터 세트

검사 데이터 세트를 제공하는 것이 좋습니다. 검사 데이터 세트를 사용하면 조정 작업의 효과를 측정할 수 있습니다.

제한사항:

  • 예시당 최대 입력 및 출력 토큰 수: 1,000
  • 검사 데이터 세트의 최대 예시 수: 1,024
  • 학습 데이터 세트의 최대 파일 크기: JSONL의 경우 최대 1GB

데이터 세트 형식

모델 조정 데이터 세트는 각 줄에 단일 조정 예시가 포함된 JSON Lines(JSONL) 형식이어야 합니다. 모델을 조정하기 전에 데이터 세트를 Cloud Storage 버킷에 업로드해야 합니다. us-central1에 업로드해야 합니다.

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

매개변수

이 예에는 다음과 같은 매개변수가 있는 데이터가 포함되어 있습니다.

매개변수

contents

필수: Content

모델과의 현재 대화 콘텐츠입니다.

싱글턴 쿼리의 경우 이는 단일 인스턴스입니다.

translation-llm-002의 데이터 세트 예시

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

목차

메시지의 여러 부분으로 구성된 콘텐츠를 포함하는 구조화된 데이터의 기본 유형입니다.

이 클래스는 roleparts라는 두 가지 기본 속성으로 구성됩니다. role 속성은 콘텐츠를 생성하는 개별 사용자를 나타내고 parts 속성에는 여러 요소가 포함되며 각 요소는 메시지 내 데이터 세그먼트를 나타냅니다.

매개변수

role

선택사항: string

메시지를 만드는 항목의 ID입니다. 다음과 같은 값이 지원됩니다.

  • user: 실제 사람이 메시지(일반적으로 사용자가 만든 메시지)를 보냈음을 나타냅니다.
  • model: 메시지가 모델에서 생성되었음을 나타냅니다.

parts

part

단일 메시지를 구성하는 순서가 지정된 부분의 목록입니다.

최대 토큰 수 또는 최대 이미지 수와 같은 입력 한도는 Google 모델 페이지의 모델 사양을 참조하세요.

요청에 포함된 토큰 수를 계산하려면 토큰 수 가져오기를 참조하세요.

파트

멀티 파트 Content 메시지의 일부인 미디어를 포함하는 데이터 유형입니다.

매개변수

text

선택사항: string

텍스트 프롬프트 또는 코드 스니펫입니다.

Cloud Storage에 조정 데이터 세트 업로드

조정 작업을 실행하려면 Cloud Storage 버킷에 하나 이상의 데이터 세트를 업로드해야 합니다. 새 Cloud Storage 버킷을 만들거나 기존 버킷을 사용하여 데이터 세트 파일을 저장할 수 있습니다. 버킷의 리전은 중요하지 않지만 모델을 조정하려는 동일한 Google Cloud 프로젝트에 있는 버킷을 사용하는 것이 좋습니다.

버킷이 준비되면 데이터 세트 파일을 버킷에 업로드합니다.

데이터 준비를 위한 노트북 예시

다음은 시작하는 데 도움이 되는 몇 가지 Colab 노트북 예시입니다.

AutoML Translation 데이터 세트

이미 AutoML Translation에 번역 데이터 세트를 업로드한 경우 Colab 예시를 따라 데이터 세트를 내보내고 조정할 수 있습니다.

로컬 데이터 세트

TSV, CSV 또는 TMX 형식의 데이터가 로컬에 있는 경우 Colab에 업로드하여 조정할 수 있습니다.

다음 단계