차원 축소 개요
차원 축소는 고차원 공간에서 데이터의 도형과 관계를 포착하고 이 정보를 저차원 공간으로 변환하는 데 사용되는 수학적 기법의 집합을 가리키는 일반적인 용어입니다.
수천 개의 지형지물이 포함될 수 있는 대규모 데이터 세트를 다룰 때는 차원 축소가 중요합니다. 이렇게 큰 데이터 공간에서 데이터 포인트 간의 거리 범위가 넓으면 모델 출력을 해석하기가 더 어려워질 수 있습니다. 예를 들어 더 밀접하게 위치하여 더 유사한 데이터를 나타내는 데이터 포인트를 파악하기가 어렵습니다. 차원 축소를 사용하면 데이터 세트의 가장 중요한 특성을 유지하면서 특성 수를 줄일 수 있습니다. 또한 기능 수를 줄이면 데이터를 입력으로 사용하는 모든 모델의 학습 시간이 줄어듭니다.
BigQuery ML은 차원 축소를 위해 다음과 같은 모델을 제공합니다.
PCA 및 Autoencoder 모델을 ML.PREDICT
또는 ML.GENERATE_EMBEDDING
함수와 함께 사용하여 데이터를 하위 차원 공간에 삽입하고 ML.DETECT_ANOMALIES
함수와 함께 사용하여 이상 감지를 실행할 수 있습니다.
차원 축소 모델의 출력을 다음과 같은 작업에 사용할 수 있습니다.
- 유사성 검색: 임베딩을 기반으로 서로 유사한 데이터 포인트를 찾습니다. 이는 관련 제품을 찾거나, 유사한 콘텐츠를 추천하거나, 중복 또는 비정상 항목을 식별하는 데 유용합니다.
- 클러스터링: 유사성을 기반으로 데이터 포인트를 그룹화하기 위해 임베딩을 k-평균 모델의 입력 기능으로 사용합니다. 이를 통해 데이터에서 숨겨진 패턴과 통계를 발견할 수 있습니다.
- 머신러닝: 임베딩을 분류 또는 회귀 모델의 입력 특성으로 사용합니다.
추천 지식
CREATE MODEL
문이 포함된 기본 설정과 추론 함수를 사용하면 많은 ML 지식 없이도 차원 축소 모델을 만들고 사용할 수 있습니다. 하지만 ML 개발에 관한 기본 지식을 알고 있으면 데이터와 모델을 모두 최적화하여 더 나은 결과를 얻을 수 있습니다. ML 기법과 프로세스에 익숙해지려면 다음 리소스를 사용하는 것이 좋습니다.