커스텀 번역 모델 만들기

이 페이지에서는 Google Cloud 콘솔을 사용하여 커스텀 AutoML 번역 모델을 학습시키고 사용하는 방법을 설명합니다. 다음 예시에서는 소프트웨어 현지화 사례에서 가져온 기술 관련 문장 쌍을 사용하여 영어에서 스페인어로 번역하는 커스텀 모델을 학습합니다.

시작하기 전에

AutoML Translation 페이지로 이동하여 드롭다운 목록에서 프로젝트를 선택합니다. 적어도 프로젝트에 대한 roles/editor 액세스 권한이 있어야 합니다. AutoML 문서에서 프로젝트를 설정하고 필요한 권한을 부여하는 과정을 안내합니다.

번역 데이터 세트 만들기 및 문장 쌍 가져오기

  1. 모델 학습에 사용할 샘플 데이터가 포함된 보관 파일을 다운로드하고 en-es.tsv 파일을 추출합니다.

  2. AutoML Translation Console 페이지로 이동합니다.

  3. AutoML Translation을 사용 설정한 프로젝트를 선택합니다.

    데이터 세트가 하나인 데이터 세트 페이지

  4. 데이터 세트 만들기 버튼을 클릭합니다.

  5. 데이터 세트 만들기 페이지에서 데이터 세트의 이름을 입력하고 출발어와 도착어를 선택합니다.

    영어출발어로 선택하면 사용 가능한 도착어가 나타납니다. 스페인어를 선택합니다.

  6. 만들기를 클릭합니다.

  7. 데이터 세트의 가져오기 탭에서 다음을 수행합니다.

    my_dataset의 가져오기 탭

    • 컴퓨터에서 파일 업로드를 선택하고 파일 선택을 클릭한 후 이전에 다운로드한 en-es.tsv 파일을 선택합니다.
    • 로컬에서 파일을 선택할 때는 업로드된 파일을 저장할 Cloud Storage 경로를 지정해야 합니다. Cloud Storage 버킷 리전은 us-central1.여야 합니다.
  8. 계속을 클릭합니다.

    데이터 세트 페이지가 다시 표시되며, 문서를 가져오는 동안 데이터 세트에 진행률 애니메이션이 표시됩니다. 데이터세트가 정상적으로 업로드되면 프로그램에 가입할 때 사용한 이메일 주소로 메시지가 발송됩니다.

  9. 데이터세트를 검토합니다.

    데이터 가져오기가 정상적으로 끝난 후 데이터세트 목록 페이지에서 데이터세트를 선택하거나 이메일 알림에서 링크를 클릭하여 데이터세트의 세부정보를 확인합니다. 제목 표시줄에 선택한 데이터세트의 이름이 표시되고, 페이지에 문장 쌍 및 해당 문장 쌍이 사용될 처리 단계(학습, 검증, 테스트)가 나열됩니다.

AutoML 번역 모델 학습

커스텀 모델 학습을 시작하려면 제목 표시줄 바로 아래에 있는 학습 탭을 클릭한 후 학습 시작 버튼을 클릭합니다.

my_dataset 데이터 세트의 학습 탭

모델 학습이 완료되기까지 몇 시간 정도 걸릴 수 있습니다. 모델 학습이 정상적으로 끝나면 프로그램에 가입할 때 사용한 이메일 주소로 메시지가 발송됩니다.

학습이 완료되었다는 알림을 받으면 이메일 메시지를 열고 링크를 클릭하여 Google Cloud 콘솔로 이동합니다. 학습 페이지에 개략적으로 모델 측정항목이 표시되는데, 그중에 BLEU 점수에 주목합니다. BLEU(Bilingual Evaluation Understudy) 점수는 후보 텍스트가 참조 텍스트와 얼마나 비슷한지를 나타내며, 값이 1에 가까울수록 더 비슷합니다.

모델 평가 결과가 표시된 my_dataset의 학습 탭

AutoML 번역 모델 사용

제목 표시줄 바로 아래의 예측 탭이나 모델 정보 아래의 테스트 및 사용 링크를 클릭합니다. 번역할 텍스트를 입력하고 번역 버튼을 클릭합니다. 커스텀 모델의 결과를 Google NMT 모델과 비교해 볼 수 있습니다.

삭제

이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.

불필요한 Google Cloud 요금이 청구되지 않게 하려면 Google Cloud Console을 사용하여 필요하지 않은 프로젝트를 삭제합니다.

다음 단계