커스텀 번역 모델 만들기

Google Cloud 콘솔을 사용하여 맞춤 번역 모델을 학습하고 사용합니다. 다음 예에서는 AutoML 번역을 사용하여 소프트웨어 현지화에서 가져온 기술 중심 세그먼트 쌍이 포함된 데이터 세트를 사용하여 영어-스페인어 번역 모델을 학습합니다.

시작하기 전에

AutoML Translation을 사용하려면 먼저 프로젝트에 Cloud Translation API가 사용 설정되어 있어야 하며 다음 역할에서 부여한 권한이 있어야 합니다.

  • 프로젝트의 기존 리소스를 볼 수 있는 뷰어 역할
  • 데이터 세트 및 모델을 만들고 관리하는 Cloud Translation API 편집자 역할
  • Cloud Storage 버킷에 학습 데이터를 업로드하는 Storage Admin 역할

번역 데이터 세트 만들기 및 세그먼트 쌍 가져오기

  1. 모델 학습에 사용할 샘플 데이터가 포함된 보관 파일을 다운로드하고 파일을 추출합니다.

    이 튜토리얼에서는 영어-스페인어 TSV 파일을 사용합니다.

  2. AutoML Translation 콘솔로 이동합니다.

    번역 페이지로 이동

  3. 탐색창에서 데이터 세트를 클릭하여 데이터 세트 페이지로 이동합니다.

  4. 데이터 세트 만들기를 클릭합니다.

  5. 데이터 세트 만들기 대화상자에서 데이터 세트에 대한 세부정보를 지정합니다.

    1. 데이터 세트 이름으로 tutorial_dataset를 입력합니다.
    2. 드롭다운 목록에서 영어(EN)를 출발어로 선택합니다.
    3. 도착어로 스페인어(ES)를 선택합니다.
    4. 만들기를 클릭합니다.
  6. 데이터 세트가 생성되면 데이터 세트 이름을 클릭하여 세부정보를 확인합니다.

  7. 가져오기 탭으로 이동하여 en-es.tsv 데이터 세트를 Cloud Storage에 업로드합니다.

    1. 컴퓨터에서 파일 업로드를 선택합니다.
    2. 파일 선택을 클릭하고 이전에 다운로드하여 추출한 en-es.tsv 파일을 선택합니다.
    3. 찾아보기를 클릭하여 TSV가 저장되는 새 Cloud Storage 버킷을 선택하거나 만듭니다. 버킷 리전은 us-central1여야 합니다.
  8. 계속을 클릭합니다.

    AutoML Translation은 데이터를 학습, 검증, 테스트 세트로 자동으로 분할합니다. 이러한 분할과 가져온 문장 쌍은 데이터 세트의 문장 탭에서 확인할 수 있습니다.

모델 학습

  1. AutoML Translation 콘솔로 이동합니다.

    번역 페이지로 이동

  2. 탐색창에서 데이터 세트 페이지로 이동합니다.

  3. tutorial_dataset 데이터 세트를 클릭합니다.

  4. 트레인 탭으로 이동합니다.

  5. 학습 시작을 클릭하면 새 모델 학습 창이 열립니다.

  6. 모델 이름으로 tutorial_model를 입력합니다.

  7. 학습 시작을 클릭합니다.

모델 학습이 완료되기까지 몇 시간 정도 걸릴 수 있습니다.

모델 평가

모델이 테스트 세트의 구간 쌍을 기반으로 하는 기본 Google NMT 모델과 어떻게 다른지 확인합니다.

  1. AutoML Translation 콘솔로 이동합니다.

    번역 페이지로 이동

  2. 탐색창에서 모델 페이지로 이동합니다.

  3. tutorial_model 모델을 클릭합니다.

  4. 평가 탭을 클릭합니다.

이전 평가 섹션에서 Cloud Translation은 Google NMT 모델과 비교한 모델의 BLEU 점수를 표시합니다. BLEU (Bilingual Evaluation Understudy) 점수는 후보 텍스트가 참조 텍스트와 얼마나 비슷한지를 나타내며, 값이 100에 가까울수록 더 비슷합니다.

번역 모델 사용

Google Cloud 콘솔에서 커스텀 모델을 사용하여 일부 텍스트를 번역할 수 있습니다.

  1. AutoML Translation 콘솔로 이동합니다.

    번역 페이지로 이동

  2. 탐색창에서 모델 페이지로 이동합니다.

  3. tutorial_model 모델을 클릭합니다.

  4. 예측 탭을 클릭합니다.

  5. 영어 텍스트 상자에 번역할 텍스트를 입력한 다음 번역을 클릭합니다.

    커스텀 모델의 결과를 Google NMT 모델과 비교해 볼 수 있습니다.

삭제

불필요한 Google Cloud 비용이 청구되지 않도록 하려면 모델, 데이터 세트, en-es.tsv 파일을 삭제합니다. 불필요한 프로젝트가 있는 경우Google Cloud console 를 사용하여 삭제할 수도 있습니다.

다음 단계

  • 맞춤 모델에 대한 자세한 내용은 초보자 가이드를 참고하세요.
  • 자체 데이터 세트 및 커스텀 모델을 만들려면 학습 데이터 준비를 참조하여 데이터를 준비하는 방법을 알아보세요.