AutoML Natural Language를 사용하여 ML 모델 만들기

이 빠른 시작 가이드에서는 AutoML Natural Language를 사용하여 커스텀 머신러닝 모델을 만드는 방법을 보여줍니다. 모델을 만들어 문서를 분류하거나 문서 내 항목을 식별하거나 문서에서 우세한 감정을 분석할 수 있습니다.

시작하기 전에

프로젝트 설정

AutoML Natural Language를 사용하려면 먼저 Google Cloud 프로젝트를 만들어 프로젝트에 AutoML Natural Language를 사용 설정해야 합니다.

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  4. API Cloud AutoML and Storage 사용 설정

    API 사용 설정

  5. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  6. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  7. API Cloud AutoML and Storage 사용 설정

    API 사용 설정

모델 객체

AutoML Natural Language는 커스텀 모델을 학습시켜 모델 객체로 알려진 4가지 개별 작업을 수행할 수 있습니다.

  • 단일 라벨 분류는 라벨을 할당하여 문서를 분류합니다.
  • 멀티 라벨 분류를 사용하면 한 문서에 여러 라벨을 지정할 수 있습니다.
  • 항목 추출은 문서 내 항목을 식별합니다.
  • 감정 분석은 문서 내에서 감정을 분석합니다.

이 빠른 시작을 위해 퍼블릭 Cloud Storage 버킷에서 호스팅되는 세 가지 샘플 데이터 세트 중 하나를 선택하여 생성할 모델 유형을 선택할 수 있습니다.

  • 단일 라벨 분류 모델을 만들려면 Kaggle 오픈소스 데이터 세트 HappyDB에서 파생된 'happy moments' 데이터 세트를 사용합니다. 결과 모델은 행복한 순간을 행복의 이유를 나타내는 카테고리로 분류합니다.

    이 데이터는 크리에이티브 커먼즈 CCO: 퍼블릭 도메인 라이선스를 통해 제공됩니다.

  • 항목 추출 모델을 만들려면 수백 개의 질병과 개념을 언급하는 생물 의학 연구 초록 자료를 사용하세요. 결과 모델은 다른 문서에서 이러한 의료 항목을 식별합니다.

    이 데이터 세트는 미국 저작권법 조항에 따라 공개 도메인에 '미국 정부 업무'로 되어 있습니다.

  • 감정 분석 모델을 만들려면 알레르기 약품 클라리틴에 관한 Twitter 멘션을 분석하는 FigureEight의 공개 데이터 세트를 사용하세요.

데이터 세트 만들기

  1. AutoML Natural Language UI를 열고 학습시킬 모델 유형에 해당하는 상자에서 시작하기를 선택합니다.

  2. 제목 표시줄에서 새 데이터 세트 버튼을 클릭합니다.

  3. 데이터 세트의 이름을 입력하고 선택한 샘플 데이터 세트와 일치하는 모델 객체를 선택합니다.

    위치전역으로 설정합니다.

  4. 텍스트 항목 가져오기 섹션에서 Cloud Storage의 CSV 파일 선택을 선택하고 텍스트 상자에 사용할 데이터 세트의 경로를 입력합니다.

    • 'happy moments' 데이터 세트: cloud-ml-data/NL-classification/happiness.csv
    • 생물 의학 연구 데이터세트: cloud-ml-data/NL-entity/dataset.csv
    • 클라리틴 감정 데이터세트: cloud-ml-data/NL-sentiment/crowdflower-twitter-claritin-80-10-10.csv

    gs:// 프리픽스가 자동으로 추가됩니다. 또는 찾아보기를 클릭하여 CSV 파일로 이동할 수 있습니다.

    감정 데이터 세트를 선택하면 AutoML Natural Language가 최대 감정 값을 요청합니다. 이 데이터 세트의 최댓값은 4입니다.

  5. 데이터 세트 만들기를 클릭합니다.

    데이터세트 페이지가 다시 표시되며, 문서를 가져오는 동안 데이터세트에 진행률 애니메이션이 표시됩니다. 이 프로세스에는 문서 1000개당 약 10분이 소요되지만 더 걸릴 수도, 덜 걸릴 수도 있습니다.

    데이터 세트가 성공적으로 생성되면 프로젝트에 연결된 이메일 주소로 메시지가 전송됩니다.

모델 학습

데이터 가져오기가 정상적으로 끝난 후 데이터 세트 목록 페이지에서 데이터 세트를 선택하여 데이터 세트의 세부정보를 확인합니다. 선택한 데이터 세트의 이름이 제목 표시줄에 나타나고 페이지에는 데이터 세트에 있는 개별 문서가 라벨과 함께 나열됩니다. 왼쪽의 탐색 메뉴에 라벨이 지정된 문서와 라벨이 지정되지 않은 문서 수에 대한 요약 정보가 표시되며 라벨별로 문서 목록을 필터링할 수 있습니다.

텍스트 항목 페이지

  1. 데이터 세트 검토가 끝났으면 제목 표시줄 바로 아래에 있는 학습 탭을 클릭합니다.

  2. 학습 시작을 클릭합니다.

  3. 새 모델 이름을 입력하고 학습 완료 후 모델 배포 체크박스를 설정합니다.

  4. 학습 시작을 클릭합니다.

모델 학습이 완료되기까지 몇 시간 정도 걸릴 수 있습니다. 모델 학습이 완료되면 프로젝트에 연결된 이메일 주소로 메시지가 전송됩니다.

학습이 끝난 후 학습하기 페이지 하단에 정밀도 및 재현율과 같은 모델의 상위 수준 측정항목이 나타납니다. 자세한 내용을 보려면 평가하기 탭을 클릭하세요.

커스텀 모델 사용

모델 학습이 끝난 후에는 커스텀 모델을 사용하여 다른 문서를 분석할 수 있습니다. 제목 표시줄 바로 아래에 있는 테스트 및 사용 탭을 클릭합니다. Cloud Storage 버킷에서 텍스트 입력 상자에 텍스트를 입력하거나 PDF 또는 TIFF 파일의 URL을 입력한 다음 예측을 클릭하십시오. AutoML Natural Language는 모델을 사용하여 텍스트를 분석하고 주석을 표시합니다.

삭제

이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.

불필요한 Google Cloud Platform 요금이 부과되지 않도록 하려면 Google Cloud 콘솔에서 필요하지 않은 프로젝트를 삭제해야 합니다.

다음 단계