커스텀 번역 모델 만들기
Google Cloud 콘솔을 사용하여 커스텀 번역 모델을 학습시키고 사용하세요. 다음 예에서는 AutoML 번역을 사용하여 소프트웨어 현지화에서 가져온 기술 중심 세그먼트 쌍이 포함된 데이터 세트를 사용하여 영어-스페인어 번역 모델을 학습합니다.
시작하기 전에
AutoML Translation을 사용하려면 먼저 프로젝트에 Cloud Translation API가 사용 설정되어 있어야 하며 다음 역할에서 부여한 권한이 있어야 합니다.
- 프로젝트의 기존 리소스를 볼 수 있는 뷰어 역할
- 데이터 세트 및 모델을 만들고 관리하는 Cloud Translation API 편집자 역할
- Cloud Storage 버킷에 학습 데이터를 업로드하는 Storage Admin 역할
번역 데이터 세트 만들기 및 세그먼트 쌍 가져오기
모델 학습에 사용할 샘플 데이터가 포함된 보관 파일을 다운로드하고 파일을 추출합니다.
이 튜토리얼에서는 영어-스페인어 TSV 파일을 사용합니다.
AutoML Translation 콘솔로 이동합니다.
탐색창에서 데이터 세트를 클릭하여 데이터 세트 페이지로 이동합니다.
데이터 세트 만들기를 클릭합니다.
데이터 세트 만들기 대화상자에서 데이터 세트에 대한 세부정보를 지정합니다.
- 데이터 세트의 이름으로
tutorial_dataset
를 입력합니다. - 드롭다운 목록에서 영어(EN)를 출발어로 선택합니다.
- 도착어로 스페인어(ES)를 선택합니다.
- 만들기를 클릭합니다.
- 데이터 세트의 이름으로
데이터 세트가 생성되면 데이터 세트 이름을 클릭하여 세부정보를 확인합니다.
가져오기 탭으로 이동하여
en-es.tsv
데이터 세트를 Cloud Storage에 업로드합니다.- 컴퓨터에서 파일 업로드를 선택합니다.
- 파일 선택을 클릭하고 이전에 다운로드하여 추출한
en-es.tsv
파일을 선택합니다. - 찾아보기를 클릭하여 TSV가 저장될 새 Cloud Storage 버킷을 선택하거나 만듭니다. 버킷 리전은
us-central1
여야 합니다.
계속을 클릭합니다.
AutoML Translation은 자동으로 데이터를 학습, 검증, 테스트 세트로 분할합니다. 이러한 분할과 가져온 문장 쌍은 데이터 세트의 문장 탭에서 확인할 수 있습니다.
모델 학습
AutoML Translation 콘솔로 이동합니다.
탐색창에서 데이터 세트 페이지로 이동합니다.
tutorial_dataset 데이터 세트를 클릭합니다.
학습 탭으로 이동합니다.
학습 시작을 클릭하면 새 모델 학습 창이 열립니다.
모델 이름으로
tutorial_model
을 입력합니다.학습 시작을 클릭합니다.
모델 학습이 완료되기까지 몇 시간 정도 걸릴 수 있습니다.
모델 평가
모델이 테스트 세트의 구간 쌍을 기반으로 하는 기본 Google NMT 모델과 어떻게 비교되는지 확인합니다.
AutoML Translation 콘솔로 이동합니다.
탐색창에서 모델 페이지로 이동합니다.
tutorial_model 모델을 클릭합니다.
평가 탭을 클릭합니다.
이전 평가 섹션에서 Cloud Translation은 Google NMT 모델과 비교한 모델의 BLEU 점수를 표시합니다. BLEU (Bilingual Evaluation Understudy) 점수는 후보 텍스트가 참조 텍스트와 얼마나 비슷한지를 나타내며, 값이 100에 가까울수록 더 비슷한 것입니다.
번역 모델 사용
Google Cloud 콘솔에서 커스텀 모델을 사용하여 일부 텍스트를 번역할 수 있습니다.
AutoML Translation 콘솔로 이동합니다.
탐색창에서 모델 페이지로 이동합니다.
tutorial_model 모델을 클릭합니다.
예측 탭을 클릭합니다.
영어 텍스트 상자에 번역할 텍스트를 입력한 다음 번역을 클릭합니다.
커스텀 모델의 결과를 Google NMT 모델과 비교해 볼 수 있습니다.
삭제
불필요한 Google Cloud 요금이 청구되지 않도록 하려면 모델, 데이터 세트, en-es.tsv
파일을 삭제하세요. Google Cloud 콘솔을 사용하여 필요하지 않은 프로젝트를 삭제할 수도 있습니다.