퀵스타트

이 빠른 시작 가이드에서는 AutoML Natural Language를 사용하여 커스텀 머신러닝 모델을 만드는 방법을 보여줍니다. 모델을 만들어 문서를 분류하거나 문서 내 항목을 식별하거나 문서에서 우세한 감정을 분석할 수 있습니다.

프로젝트 설정

AutoML Natural Language를 사용하려면 먼저 Google Cloud 프로젝트를 만들어 프로젝트에 AutoML Natural Language를 사용 설정해야 합니다.

  1. Google 계정으로 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. Cloud Console의 프로젝트 선택기 페이지에서 Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기 페이지로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. Cloud AutoML and Storage API를 사용 설정합니다.

    API 사용 설정

모델 객체

AutoML Natural Language는 커스텀 모델을 학습시켜 모델 객체로 알려진 4가지 개별 작업을 수행할 수 있습니다.

  • 단일 라벨 분류는 라벨을 할당하여 문서를 분류합니다.
  • 멀티 라벨 분류를 사용하면 한 문서에 여러 라벨을 지정할 수 있습니다.
  • 항목 추출은 문서 내 항목을 식별합니다.
  • 감정 분석은 문서 내에서 감정을 분석합니다.

이 빠른 시작을 위해 퍼블릭 Cloud Storage 버킷에서 호스팅되는 세 가지 샘플 데이터세트 중 하나를 선택하여 생성할 모델 유형을 선택할 수 있습니다.

  • 단일 라벨 분류 모델을 만들려면 Kaggle 오픈소스 데이터세트 HappyDB에서 파생된 'happy moments' 데이터세트를 사용합니다. 결과 모델은 행복한 순간을 행복의 이유를 나타내는 카테고리로 분류합니다.

    이 데이터는 크리에이티브 커먼즈 CCO: 퍼블릭 도메인 라이선스를 통해 제공됩니다.

  • 항목 추출 모델을 만들려면 수백 개의 질병과 개념을 언급하는 생물 의학 연구 초록 자료를 사용하세요. 결과 모델은 다른 문서에서 이러한 의료 항목을 식별합니다.

    이 데이터세트는 미국 저작권법 조항에 따라 공개 도메인에 '미국 정부 업무'로 되어 있습니다.

  • 감정 분석 모델을 만들려면 알레르기 약품 클라리틴에 관한 Twitter 멘션을 분석하는 FigureEight의 공개 데이터세트를 사용하세요.

데이터세트 생성

  1. AutoML Natural Language UI를 열고 학습시킬 모델 유형에 해당하는 상자에서 시작하기를 선택합니다.

  2. 제목 표시줄에서 새 데이터세트 버튼을 클릭합니다.

  3. 데이터세트의 이름을 입력하고 선택한 샘플 데이터세트와 일치하는 모델 객체를 선택합니다.

    위치전역으로 설정합니다.

  4. 텍스트 항목 가져오기 섹션에서 Cloud Storage의 CSV 파일 선택을 선택하고 텍스트 상자에 사용할 데이터세트의 경로를 입력합니다.

    • 'happy moments' 데이터세트: cloud-ml-data/NL-classification/happiness.csv
    • 생물 의학 연구 데이터세트: cloud-ml-data/NL-entity/dataset.csv
    • 클라리틴 감정 데이터세트: cloud-ml-data/NL-sentiment/crowdflower-twitter-claritin-80-10-10.csv

    gs:// 프리픽스가 자동으로 추가됩니다. 또는 찾아보기를 클릭하여 CSV 파일로 이동할 수 있습니다.

    감정 데이터세트를 선택하면 AutoML Natural Language가 최대 감정 값을 요청합니다. 이 데이터세트의 최댓값은 4입니다.

  5. 데이터세트 만들기를 클릭합니다.

    데이터세트 페이지가 다시 표시되며, 문서를 가져오는 동안 데이터세트에 진행률 애니메이션이 표시됩니다. 이 프로세스에는 문서 1000개당 약 10분이 소요되지만 더 걸릴 수도, 덜 걸릴 수도 있습니다.

    데이터세트가 성공적으로 생성되면 프로젝트에 연결된 이메일 주소로 메시지가 전송됩니다.

모델 학습

데이터 가져오기가 정상적으로 끝난 후 데이터세트 목록 페이지에서 데이터세트를 선택하여 데이터세트의 세부정보를 확인합니다. 선택한 데이터세트의 이름이 제목 표시줄에 나타나고 페이지에는 데이터세트에 있는 개별 문서가 라벨과 함께 나열됩니다. 왼쪽의 탐색 메뉴에 라벨이 지정된 문서와 라벨이 지정되지 않은 문서 수에 대한 요약 정보가 표시되며 라벨별로 문서 목록을 필터링할 수 있습니다.

텍스트 항목 페이지

  1. 데이터세트 검토가 끝났으면 제목 표시줄 바로 아래에 있는 학습 탭을 클릭합니다.

  2. 학습 시작을 클릭합니다.

  3. 새 모델 이름을 입력하고 학습 완료 후 모델 배포 체크박스를 설정합니다.

  4. 학습 시작을 클릭합니다.

모델 학습이 완료되기까지 몇 시간 정도 걸릴 수 있습니다. 모델 학습이 완료되면 프로젝트에 연결된 이메일 주소로 메시지가 전송됩니다.

학습이 끝난 후 학습하기 페이지 하단에 정밀도 및 재현율과 같은 모델의 상위 수준 측정항목이 나타납니다. 자세한 내용을 보려면 평가하기 탭을 클릭하세요.

커스텀 모델 사용

모델 학습이 끝난 후에는 커스텀 모델을 사용하여 다른 문서를 분석할 수 있습니다. 제목 표시줄 바로 아래에 있는 테스트 및 사용 탭을 클릭합니다. Cloud Storage 버킷에서 텍스트 입력 상자에 텍스트를 입력하거나 PDF 또는 TIFF 파일의 URL을 입력한 다음 예측을 클릭하십시오. AutoML Natural Language는 모델을 사용하여 텍스트를 분석하고 주석을 표시합니다.

정리

불필요한 Google Cloud Platform 요금을 지출하지 않으려면 Cloud Console을 사용하여 필요하지 않은 프로젝트를 삭제해야 합니다.