AutoML Tables 특성 및 기능

이 페이지에서는 AutoML Tables를 이용해 사용자와 사용자의 팀이 표 형식의 데이터를 바탕으로 고성능 모델을 만드는 방법을 설명합니다.

알려진 문제 페이지에서 현재 알려진 문제와 이러한 문제를 방지하거나 피해를 복구하는 방법을 확인하세요

AutoML Tables는 데이터 처리 및 보안 약관에 명시된 Google의 의무가 적용되는 서비스입니다.

데이터 지원

AutoML Tables를 사용하면 누락된 데이터, 상관관계, 카디널리티, 각 특성 분포 관련 정보를 제공해 깔끔하고 효과적인 학습 데이터를 만들 수 있습니다. 그리고 데이터 가져오기와 관련 정보 보기는 요금이 부과되지 않으니, 모델 학습을 시작하지 않는 한 AutoML Tables 관련 비용을 지불할 필요가 없습니다.

특성 추출

학습을 시작하면 AutoML Tables는 사용자를 대신해 다음을 포함한 일반적인 특성 추출 작업을 자동으로 수행합니다.

  • 숫자 특성을 정규화하고 버킷화합니다.
  • 범주형 특성의 원-핫 인코딩과 임베딩을 만듭니다.
  • 텍스트 특성의 기본 처리를 수행합니다.
  • 타임스탬프 열에서 날짜 및 시간 관련 특성을 추출합니다.

자세한 내용은 AutoML Tables가 대신 데이터 준비를 참조하세요.

모델 학습

동시 모델 테스트

모델 학습을 시작하면 AutoML Tables는 데이터세트를 가져온 다음 여러 모델 아키텍처의 학습을 동시에 시작합니다. 이 접근 방식을 활용하면 AutoML Tables에서 최대한 많은 모델 아키텍처를 상대로 작업을 순차적으로 반복하지 않고도, 데이터에 맞는 최상의 모델 아키텍처를 빠르게 결정할 수 있습니다. AutoML Tables에서 테스트하는 모델 아키텍처는 다음과 같습니다.

  • 선형
  • 순방향 심층신경망
  • 경사 강화 의사 결정 트리
  • AdaNet
  • 다양한 모델 아키텍처의 앙상블

연구 커뮤니티에서 새 모델 아키텍처를 발표하면, Google에서는 이러한 아키텍처도 추가합니다.

모델 평가 및 최종 모델 생성

Google은 사용자의 학습 및 검증 세트를 사용해 사용자의 데이터에 가장 적합한 모델 아키텍처를 결정합니다. 그리고 동시 테스트 단계에서 결정한 매개변수와 아키텍처를 바탕으로 추가 모델 2개의 학습을 진행합니다.

  1. 사용자의 학습 및 검증 세트로 학습을 진행한 모델

    Google에서는 사용자의 테스트 세트를 이용해 이 모델에 대한 모델 평가를 제공합니다.

  2. 사용자의 학습, 검증, 테스트 세트로 학습을 진행한 모델

    사용자가 예측을 수행할 때 사용할 수 있도록 Google에서 제공하는 모델입니다.

AutoML Tables나 BigQuery ML 선택

모델에 포함할 데이터를 이용한 빠른 실험이나 반복에 집중하고, 이러한 목적에 더 단순한 모델 유형(로지스틱 회귀 등)을 활용하고 싶다면 BigQuery ML을 사용해야 합니다.

이미 데이터를 마무리했으면 다음과 같은 경우에 속한다면 AutoML Tables 인터페이스에서 바로 작업하는 편이 효율적입니다.

  • 특성 추출, 모델 선택, 앙상블링 같은 작업을 수동으로 진행하지 않고도 모델 품질(정확도, 낮은 low RMSE 등)을 최적화 및 극대화합니다.

  • 모델 품질이 확보될 때까지 더 오래 기다릴 의향이 있습니다. AutoML Tables는 많은 모델링 옵션을 실험하기 때문에 모델 학습이 끝날 때까지 1시간 이상 걸립니다. BigQuery ML은 사용자가 설정한 모델 아키텍처와 매개변수 값 및 범위만 따르기 때문에 모델을 몇 분 안에 반환할 수 있습니다.

  • 숫자와 클래스 이외의 다양한 특성 입력을 확보하면 AutoML Tables가 제공하는 추가 자동 특성 추출의 혜택을 누릴 수 있습니다.

모델 투명성 및 Cloud Logging

Cloud Logging을 사용하여 AutoML Tables 모델의 구조를 확인할 수 있습니다. Logging에서는 최종 모델 초매개변수뿐 아니라 모델 검증 중에 사용된 초매개변수와 목표 값을 확인할 수 있습니다.

자세한 내용은 Logging을 참고하세요.

설명 기능

데이터와 최종 모델, 그리고 데이터와 예측 결과 간의 연관성을 설명할 수 있어야 한다는 점을 잘 알고 있으며 Google은 모델과 모델 운영 방식을 파악할 수 있도록 두 가지 방법을 다음과 같이 지원하고 있습니다.

테스트 데이터 내보내기

테스트 세트를 모델 예측한 결과와 함께 내보낼 수 있습니다. 이 기능을 사용하면 학습 데이터의 각 행에서 모델 성능을 파악할 수 있습니다. 테스트 세트와 결과를 검토하면 모델의 성능이 저조한 예측 유형을 파악하고 고품질 모델의 데이터를 개선할 수 있는 방법에 대한 단서를 제공할 수 있습니다.