특성 추출

이 문서에서는 Feature Transform Engine이 특성 추출을 수행하는 방법을 설명합니다. Feature Transform Engine에서 특성 선택과 특성 변환을 수행합니다. 특성 선택이 사용 설정되면 Feature Transform Engine에서 순위가 지정된 중요한 특성 집합을 만듭니다. 특성 변환이 사용 설정되면 Feature Transform Engine에서 모델 학습과 모델 서빙에 필요한 입력이 일관되도록 특성을 처리합니다. Feature Transform Engine은 단독으로 또는 테이블 형식 학습 워크플로와 함께 사용할 수 있습니다. TensorFlow 및 비TensorFlow 프레임워크를 모두 지원합니다.

입력

Feature Transform Engine에 다음 입력을 제공해야 합니다.

  • 원시 데이터(BigQuery 또는 CSV 데이터 세트)
  • 데이터 분할 구성
  • 특성 선택 구성
  • 특성 변환 구성

출력

Feature Transform Engine에서 다음과 같은 출력을 생성합니다.

  • dataset_stats: 원시 데이터 세트를 설명하는 통계. 예를 들어 dataset_stats은 데이터 세트의 행 수를 제공합니다.
  • feature_importance: 특성의 중요도 점수. 특성 선택이 사용 설정되면 이 출력이 생성됩니다.
  • materialized_data: 학습 분할, 평가 분할, 테스트 분할이 포함된 데이터 분할 그룹의 변환된 버전
  • training_schema: 학습 데이터의 데이터 유형을 설명하는 OpenAPI 사양의 학습 데이터 스키마
  • instance_schema: 예측 데이터의 데이터 유형을 설명하는 OpenAPI 사양의 인스턴스 스키마
  • transform_output: 변환 메타데이터. 변환에 TensorFlow를 사용하는 경우 메타데이터에 TensorFlow 그래프가 포함됩니다.

처리 단계

Feature Transform Engine에서 다음 단계를 수행합니다.

  • 학습, 평가, 테스트에 사용되는 데이터 세트 분할을 생성합니다.
  • 원시 데이터 세트를 설명하는 입력 데이터 세트 통계 dataset_stats을 생성합니다.
  • 특성 선택을 수행합니다.
  • 데이터 세트 통계를 사용하여 변환 구성을 처리하여 자동 변환 매개변수를 수동 변환 매개변수로 확인합니다.
  • 원시 특성을 추출된 특성으로 변환합니다. 특성 유형에 따라 서로 다른 변환이 수행됩니다.

특성 선택

특성 선택의 주요 목적은 모델에 사용되는 특성 수를 줄이는 것입니다. 축소된 특성 세트는 대부분의 라벨 정보를 더욱 간단한 방법으로 캡처할 수 있습니다. 특성 선택을 사용하면 모델 품질에 크게 영향을 미치지 않고 모델 학습과 서빙 비용을 줄일 수 있습니다.

특성 선택이 사용 설정되면 Feature Transform Engine은 각 특성에 중요도 점수를 할당합니다. 전체 특성 세트 또는 가장 중요한 특성의 축소된 하위 집합의 중요도 점수를 출력할 수 있습니다.

Vertex AI는 다음과 같은 특성 선택 알고리즘을 제공합니다.

모든 데이터 세트와 목적에 항상 맞는 특성 선택 알고리즘은 없습니다. 가능하면 모든 알고리즘을 실행하고 결과를 결합합니다.

조정 상호 정보(AMI)

AMI는 운용을 위해 상호 정보(MI) 점수를 조정한 것입니다. 이는 실제로 공유되는 정보 양에 관계없이 일반적으로 클러스터가 많이 있는 클러스터링 2개의 MI가 더 높다는 것을 나타냅니다.

AMI는 특성과 라벨의 관련성을 감지하는 데 유용하지만 특성 중복에는 민감하지 않습니다. 특성이 많지만(예: 2000개 초과) 특성 중복이 많지 않으면 AMI를 사용하는 것이 좋습니다. 여기에 설명된 다른 알고리즘보다 빠르지만 중복 특성을 사용할 수 있습니다.

조건부 상호 정보 극대화(CMIM)

CMIM은 선택된 특성과 관련하여 후보 특성의 조건부 상호 정보를 기반으로 반복적으로 특성을 선택하는 탐욕 알고리즘입니다. 각 반복에서 선택한 특성으로 아직 캡처되지 않은 라벨로 최소 상호 정보를 극대화하는 특성을 선택합니다.

CMIM은 특성 중복을 처리하는 데 강력하며 일반적인 경우에 우수하게 작동합니다.

결합 상호 정보 극대화(JMIM)

JMIM은 CMIM과 비슷한 탐욕 알고리즘입니다. JMIM은 새 특성의 결합 상호 정보와 라벨로 미리 선택한 특성을 극대화하는 특성을 선택하는 반면 CMIM은 중복을 더 고려합니다.

JMIM은 고품질 특성 선택 알고리즘입니다.

최대 관련성 최소 중복(MRMR)

MRMR은 반복적으로 작동하는 탐욕 알고리즘으로, CMIM과 비슷합니다. 각 반복은 라벨과의 관련성을 극대화하는 특성을 선택하고 이전 반복에서 선택된 특성에 대한 쌍 중복을 최소화합니다.

MRMR은 고품질 특성 선택 알고리즘입니다.

다음 단계

특성 추출을 수행한 후에 모델을 분류 또는 회귀하도록 학습시킬 수 있습니다.