커스텀 번역 모델 만들기

Google Cloud 콘솔을 사용하여 커스텀 번역 모델을 학습시키고 사용하세요. 다음 예시에서는 AutoML Translation을 사용하여 소프트웨어 현지화에서 가져온 기술 중심 세그먼트 쌍이 포함된 데이터 세트를 사용하여 영어-스페인어 번역 모델을 학습시킵니다.

시작하기 전에

AutoML Translation 사용을 시작하려면 프로젝트에 Cloud Translation API가 사용 설정되어 있어야 하고 다음 역할로 부여되는 권한이 있어야 합니다.

  • 프로젝트의 기존 리소스를 볼 수 있는 뷰어 역할
  • 데이터 세트와 모델을 만들고 관리하는 Cloud Translation API 편집자 역할
  • Cloud Storage 버킷에 학습 데이터를 업로드하는 스토리지 관리자 역할

번역 데이터 세트 만들기 및 세그먼트 쌍 가져오기

  1. 모델 학습에 사용할 샘플 데이터가 포함된 보관 파일을 다운로드하고 파일을 추출합니다.

    이 튜토리얼에서는 영어-스페인어 TSV 파일을 사용합니다.

  2. AutoML Translation 콘솔로 이동합니다.

    Translation 페이지로 이동

  3. 탐색창에서 데이터 세트를 클릭하여 데이터 세트 페이지로 이동합니다.

  4. 데이터 세트 만들기를 클릭합니다.

  5. 데이터 세트 만들기 대화상자에서 데이터 세트에 대한 세부정보를 지정합니다.

    1. 데이터 세트 이름으로 tutorial_dataset를 입력합니다.
    2. 드롭다운 목록에서 영어(EN)를 출발어로 선택합니다.
    3. 도착어로 스페인어(ES)를 선택합니다.
    4. 만들기를 클릭합니다.
  6. 데이터 세트가 생성된 후 데이터 세트 이름을 클릭하여 세부정보를 확인합니다.

  7. 가져오기 탭으로 이동하고 en-es.tsv 데이터 세트를 Cloud Storage에 업로드합니다.

    1. 컴퓨터에서 파일 업로드를 선택합니다.
    2. 파일 선택을 클릭하고 이전에 다운로드하여 추출한 en-es.tsv 파일을 선택합니다.
    3. 찾아보기를 클릭하여 TSV가 저장된 새 Cloud Storage 버킷을 선택하거나 만듭니다. 버킷 리전은 us-central1여야 합니다.
  8. 계속을 클릭합니다.

    AutoML Translation은 데이터를 자동으로 학습, 검증, 테스트 세트로 나눕니다. 데이터 세트의 문장 탭에서 이러한 분할과 가져온 문장 쌍을 볼 수 있습니다.

모델 학습

  1. AutoML Translation 콘솔로 이동합니다.

    Translation 페이지로 이동

  2. 탐색창에서 데이터 세트 페이지로 이동합니다.

  3. tutorial_dataset 데이터 세트를 클릭합니다.

  4. 학습 탭으로 이동합니다.

  5. 학습 시작을 클릭하면 새 모델 학습 창이 열립니다.

  6. 모델 이름으로 tutorial_model를 입력합니다.

  7. 학습 시작을 클릭합니다.

모델 학습이 완료되기까지 몇 시간 정도 걸릴 수 있습니다.

모델 평가

테스트 세트의 세그먼트 쌍을 기반으로 하는 기본 Google NMT 모델과 모델을 비교합니다.

  1. AutoML Translation 콘솔로 이동합니다.

    Translation 페이지로 이동

  2. 탐색창에서 모델 페이지로 이동합니다.

  3. tutorial_model 모델을 클릭합니다.

  4. 평가 탭을 클릭합니다.

이전 평가 섹션에서 Cloud Translation은 Google NMT 모델과 비교하여 모델의 BLEU 점수를 표시합니다. BLEU (Bilingual Evaluation Understudy) 점수는 후보 텍스트가 참조 텍스트와 얼마나 비슷한지를 나타냅니다. 값이 100에 가까울수록 더 비슷한 텍스트를 나타냅니다.

번역 모델 사용

Google Cloud 콘솔에서 커스텀 모델을 사용하여 일부 텍스트를 번역할 수 있습니다.

  1. AutoML Translation 콘솔로 이동합니다.

    Translation 페이지로 이동

  2. 탐색창에서 모델 페이지로 이동합니다.

  3. tutorial_model 모델을 클릭합니다.

  4. 예측 탭을 클릭합니다.

  5. 영어 텍스트 상자에 번역할 텍스트를 입력한 다음 번역을 클릭합니다.

    커스텀 모델의 결과를 Google NMT 모델과 비교해 볼 수 있습니다.

삭제

불필요한 Google Cloud 요금이 부과되지 않도록 하려면 모델, 데이터 세트, en-es.tsv 파일을 삭제합니다. Google Cloud 콘솔을 사용하여 필요 없는 프로젝트를 삭제할 수도 있습니다.

다음 단계

  • 커스텀 모델에 대한 자세한 내용은 초보자 가이드를 참조하세요.
  • 자체 데이터 세트 및 커스텀 모델을 만들려면 학습 데이터 준비를 참조하여 데이터를 준비하는 방법을 알아보세요.