Panoramica della riduzione della dimensionalità

La riduzione della dimensionalità è il termine comune per un insieme di tecniche matematiche utilizzate per acquisire la forma e le relazioni dei dati in uno spazio ad alta dimensione e tradurre queste informazioni in uno spazio a bassa dimensione.

La riduzione della dimensionalità è importante quando si utilizzano set di dati di grandi dimensioni che possono contenere migliaia di elementi. In uno spazio di dati così ampio, l'intervallo più ampio di distanze tra i punti dati può rendere più difficile interpretare l'output del modello. Ad esempio, è difficile capire quali punti dati sono più vicini e quindi rappresentano dati più simili. La riduzione della dimensionalità ti consente di ridurre il numero di funzionalità mantenendo le caratteristiche più importanti del set di dati. La riduzione del numero di funzionalità contribuisce anche a ridurre il tempo di addestramento di tutti i modelli che utilizzano i dati come input.

BigQuery ML offre i seguenti modelli per la riduzione della dimensionalità:

Puoi utilizzare i modelli PCA e di autocodifica con le funzioni ML.PREDICT o ML.GENERATE_EMBEDDING per incorporare i dati in uno spazio di dimensioni inferiori e con la funzione ML.DETECT_ANOMALIES per eseguire il rilevamento delle anomalie.

Puoi utilizzare l'output dei modelli di riduzione della dimensionalità per attività come:

  • Ricerca di similarità: trova punti dati simili tra loro in base ai relativi embedding. Questa funzionalità è ideale per trovare prodotti correlati, consigliare contenuti simili o identificare elementi duplicati o anomali.
  • Clustering: utilizza gli embedding come funzionalità di input per i modelli k-means per raggruppare i punti dati in base alle loro somiglianze. In questo modo puoi scoprire pattern e approfondimenti nascosti nei tuoi dati.
  • Machine learning: utilizza gli embedding come funzionalità di input per i modelli di classificazione o regressione.