Beitragsanalyse – Übersicht

Mithilfe der Beitragsanalyse, auch als Analyse der wichtigsten Treiber bezeichnet, können Sie Informationen zu Änderungen an wichtigen Messwerten in Ihren mehrdimensionalen Daten gewinnen. Mithilfe der Beitragsanalyse können Sie beispielsweise die Veränderung der Umsatzzahlen über zwei Quartale hinweg sehen oder zwei Trainingsdatensätze vergleichen, um Änderungen an der Leistung eines ML-Modells zu verstehen. Mit einer CREATE MODEL-Anweisung können Sie ein Beitragsanalysemodell in BigQuery erstellen.

Die Beitragsanalyse ist eine Form der erweiterten Analyse, bei der künstliche Intelligenz (KI) eingesetzt wird, um die Analyse und Auswertung von Daten zu verbessern und zu automatisieren. Mit der Beitragsanalyse wird eines der Hauptziele der erweiterten Analysen erreicht: Nutzern dabei zu helfen, Muster in ihren Daten zu finden.

Mit einem Modell für die Beitragsanalyse werden Datensegmente erkannt, die im Zeitverlauf statistisch signifikante Änderungen bei einem Messwert aufweisen. Dazu wird ein Testdatensatz mit einem Kontrolldatensatz verglichen. Sie können sehen, wie sich die Daten im Laufe der Zeit, eines Standorts, eines Kundensegments oder eines anderen für Sie relevanten Messwerts ändern. Sie können beispielsweise einen Tabellen-Snapshot von Ende 2023 mit einem Tabellen-Snapshot von Ende 2022 vergleichen, um zu sehen, wie sich die Daten in zwei Jahren unterscheiden.

Der Messwert ist der numerische Wert, mit dem in Modellen zur Beitragsanalyse die Änderungen zwischen den Test- und Kontrolldaten gemessen und verglichen werden. Sie können bei Beitragsanalysemodellen entweder einen summierbaren Messwert oder einen summierbaren Verhältnismesswert angeben.

Ein Segment ist ein Segment der Daten, das durch eine bestimmte Kombination von Dimensionswerte identifiziert wird. Bei einem Beitragsanalysemodell, das auf den Dimensionen store_number, customer_id und day basiert, stellt beispielsweise jede eindeutige Kombination dieser Dimensionswerte ein Segment dar. In der folgenden Tabelle steht jede Zeile für ein anderes Segment:

store_number customer_id day
Geschäft 1
Geschäft 1 Kund*in 1
Geschäft 1 Kund*in 1 Montag
Geschäft 1 Kund*in 1 Dienstag
Geschäft 1 Kund*in 2
Geschäft 2

Wenn Sie nur die größten und daher relevantesten Segmente modellieren möchten, geben Sie einen Apriori-Supportschwellenwert an, der kleine Segmente von der Verwendung durch das Modell bereinigt. Dies reduziert auch die Erstellungszeit des Modells.

Nachdem Sie ein Modell für die Beitragsanalyse erstellt haben, können Sie mit der Funktion ML.GET_INSIGHTS die vom Modell berechneten Messwertinformationen abrufen.

Nächste Schritte