번역 LLM 모델용 지도 미세 조정 데이터 준비

이 문서에서는 번역 LLM 모델의 지도 미세 조정 데이터 세트를 정의하는 방법을 설명합니다. 텍스트 데이터 유형을 조정할 수 있습니다.

지도 미세 조정 데이터 세트 정보

지도 미세 조정 데이터 세트는 선행 학습된 모델을 특정 도메인에 맞게 미세 조정하는 데 사용됩니다. 입력 데이터는 모델이 실제 사용하는 데이터와 유사해야 합니다. 출력 라벨은 각 입력의 정답 또는 결과를 나타내야 합니다.

학습 데이터 세트

모델을 조정하려면 학습 데이터 세트를 제공합니다. 최상의 결과를 얻으려면 100개 예시로 시작하는 것이 좋습니다. 필요한 경우 예시를 최대 수천 개까지 확장할 수 있습니다. 데이터 세트의 품질이 수량보다 훨씬 중요합니다.

제한사항:

  • 예시당 최대 입력 및 출력 토큰 수: 1,000
  • 학습 데이터 세트의 최대 파일 크기: JSONL의 경우 최대 1GB

검사 데이터 세트

검사 데이터 세트를 제공하는 것이 좋습니다. 검사 데이터 세트를 사용하면 조정 작업의 효과를 측정할 수 있습니다.

제한사항:

  • 예시당 최대 입력 및 출력 토큰 수: 1,000
  • 검사 데이터 세트의 최대 예시 수: 1,024
  • 학습 데이터 세트의 최대 파일 크기: JSONL의 경우 최대 1GB

데이터 세트 형식

모델 조정 데이터 세트는 각 줄에 단일 조정 예시가 포함된 JSON Lines(JSONL) 형식이어야 합니다. 모델을 조정하기 전에 데이터 세트를 Cloud Storage 버킷에 업로드해야 합니다. us-central1에 업로드해야 합니다.

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

매개변수

이 예에는 다음과 같은 매개변수가 있는 데이터가 포함되어 있습니다.

매개변수

contents

필수: Content

모델과의 현재 대화 콘텐츠입니다.

싱글턴 쿼리의 경우 이는 단일 인스턴스입니다.

translation-llm-002의 데이터 세트 예시

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

목차

메시지의 여러 부분으로 구성된 콘텐츠를 포함하는 구조화된 데이터의 기본 유형입니다.

이 클래스는 roleparts라는 두 가지 기본 속성으로 구성됩니다. role 속성은 콘텐츠를 생성하는 개별 사용자를 나타내고 parts 속성에는 여러 요소가 포함되며 각 요소는 메시지 내 데이터 세그먼트를 나타냅니다.

매개변수

role

선택사항: string

메시지를 만드는 항목의 ID입니다. 다음과 같은 값이 지원됩니다.

  • user: 실제 사람이 메시지(일반적으로 사용자가 만든 메시지)를 보냈음을 나타냅니다.
  • model: 메시지가 모델에서 생성되었음을 나타냅니다.

parts

part

단일 메시지를 구성하는 순서가 지정된 부분의 목록입니다.

최대 토큰 수 또는 최대 이미지 수와 같은 입력 한도는 Google 모델 페이지의 모델 사양을 참조하세요.

요청에 포함된 토큰 수를 계산하려면 토큰 수 가져오기를 참조하세요.

파트

멀티 파트 Content 메시지의 일부인 미디어를 포함하는 데이터 유형입니다.

매개변수

text

선택사항: string

텍스트 프롬프트 또는 코드 스니펫입니다.

Cloud Storage에 조정 데이터 세트 업로드

조정 작업을 실행하려면 Cloud Storage 버킷에 하나 이상의 데이터 세트를 업로드해야 합니다. 새 Cloud Storage 버킷을 만들거나 기존 버킷을 사용하여 데이터 세트 파일을 저장할 수 있습니다. 버킷의 리전은 중요하지 않지만 모델을 조정하려는 동일한 Google Cloud 프로젝트에 있는 버킷을 사용하는 것이 좋습니다.

버킷이 준비되면 데이터 세트 파일을 버킷에 업로드합니다.

데이터 준비를 위한 노트북 예시

다음은 시작하는 데 도움이 되는 몇 가지 Colab 노트북 예시입니다.

AutoML Translation 데이터 세트

이미 AutoML Translation에 번역 데이터 세트를 업로드한 경우 Colab 예시를 따라 데이터 세트를 내보내고 조정할 수 있습니다.

Google Colaboratory 로고
Colab에서 실행
Google Cloud Colab Enterprise 로고
Colab Enterprise에서 실행
GitHub 로고
GitHub에서 보기

로컬 데이터 세트

TSV, CSV 또는 TMX 형식의 데이터가 로컬에 있는 경우 Colab에 업로드하여 조정할 수 있습니다.

Google Colaboratory 로고
Colab에서 실행
Google Cloud Colab Enterprise 로고
Colab Enterprise에서 실행
GitHub 로고
GitHub에서 보기

다음 단계