차원 축소 개요
차원 축소는 고차원 공간에서 데이터의 도형과 관계를 포착하고 이 정보를 저차원 공간으로 변환하는 데 사용되는 수학적 기법의 집합을 가리키는 일반적인 용어입니다.
수천 개의 지형지물이 포함될 수 있는 대규모 데이터 세트를 다룰 때는 차원 축소가 중요합니다. 이렇게 큰 데이터 공간에서 데이터 포인트 간의 거리 범위가 넓으면 모델 출력을 해석하기가 더 어려워질 수 있습니다. 예를 들어 더 밀접하게 위치하여 더 유사한 데이터를 나타내는 데이터 포인트를 파악하기가 어렵습니다. 차원 축소를 사용하면 데이터 세트의 가장 중요한 특성을 유지하면서 특성 수를 줄일 수 있습니다. 또한 기능 수를 줄이면 데이터를 입력으로 사용하는 모든 모델의 학습 시간이 줄어듭니다.
BigQuery ML은 차원 축소를 위해 다음과 같은 모델을 제공합니다.
PCA 및 Autoencoder 모델을 ML.PREDICT
또는 ML.GENERATE_EMBEDDING
함수와 함께 사용하여 데이터를 하위 차원 공간에 삽입하고 ML.DETECT_ANOMALIES
함수와 함께 사용하여 이상 감지를 실행할 수 있습니다.
차원 축소 모델의 출력을 다음과 같은 작업에 사용할 수 있습니다.
- 유사성 검색: 임베딩을 기반으로 서로 유사한 데이터 포인트를 찾습니다. 이는 관련 제품을 찾거나, 유사한 콘텐츠를 추천하거나, 중복 또는 비정상 항목을 식별하는 데 유용합니다.
- 클러스터링: 유사성을 기반으로 데이터 포인트를 그룹화하기 위해 임베딩을 k-평균 모델의 입력 특성으로 사용합니다. 이를 통해 데이터에서 숨겨진 패턴과 통계를 발견할 수 있습니다.
- 머신러닝: 임베딩을 분류 또는 회귀 모델의 입력 특성으로 사용합니다.