Diese Seite wurde von der Cloud Translation API übersetzt.

Mit einem summarisierbaren Verhältnismesswert Dateninformationen aus einem Modell zur Beitragsanalyse abrufen

In dieser Anleitung verwenden Sie ein Modell für die Beitragsanalyse, um den Beitrag des Verhältnisses der Selbstkosten zum Umsatz im Dataset „Iowa Liquor Retail Sales“ (Einzelhandelsverkauf von Spirituosen in Iowa) zu analysieren. In dieser Anleitung werden Sie durch die folgenden Aufgaben geführt:

Erstellen einer Eingabetabelle anhand öffentlich verfügbarer Daten zu Spirituosen in Iowa
Erstellen eines Beitragsanalysemodells mit einem summierbaren Verhältnismesswert. Bei diesem Modell werden die Werte von zwei numerischen Spalten zusammengefasst und die Verhältnisunterschiede zwischen Kontroll- und Testdatensatz für jedes Datensegment ermittelt.
Mit der Funktion ML.GET_INSIGHTS können Sie die Messwertstatistiken aus dem Modell abrufen.

Bevor Sie mit dieser Anleitung beginnen, sollten Sie mit dem Anwendungsfall Beitragsanalyse vertraut sein.

Erforderliche Berechtigungen

Zum Erstellen des Datasets benötigen Sie die IAM (Identity and Access Management)-Berechtigung bigquery.datasets.create.
Zum Erstellen des Modells benötigen Sie die folgenden Berechtigungen:
- bigquery.jobs.create
- bigquery.models.create
- bigquery.models.getData
- bigquery.models.updateData
Zum Ausführen von Inferenzen benötigen Sie die folgenden Berechtigungen:
- bigquery.models.getData
- bigquery.jobs.create

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

BigQuery ML: You incur costs for the data that you process in BigQuery.

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Weitere Informationen zu den Preisen von BigQuery finden Sie unter BigQuery: Preise in der BigQuery-Dokumentation.

Hinweis

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Make sure that billing is enabled for your Google Cloud project.
Enable the BigQuery API.
Enable the API

Dataset erstellen

Erstellen Sie ein BigQuery-Dataset, um Ihr ML-Modell zu speichern.

Console

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

Zur Seite „BigQuery“
Klicken Sie im Bereich Explorer auf den Namen Ihres Projekts.
Klicken Sie auf Aktionen ansehen > Dataset erstellen.
Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:
- Geben Sie unter Dataset-ID bqml_tutorial ein.
- Wählen Sie als Standorttyp die Option Mehrere Regionen und dann USA (mehrere Regionen in den USA) aus.
Die öffentlichen Datasets sind am multiregionalen Standort US gespeichert. Der Einfachheit halber sollten Sie Ihr Dataset am selben Standort speichern.
- Übernehmen Sie die verbleibenden Standardeinstellungen unverändert und klicken Sie auf Dataset erstellen.

bq

Wenn Sie ein neues Dataset erstellen möchten, verwenden Sie den Befehl bq mk mit dem Flag --location. Eine vollständige Liste der möglichen Parameter finden Sie in der bq mk --dataset-Befehlsreferenz.

Erstellen Sie ein Dataset mit dem Namen bqml_tutorial, dessen Speicherort auf US festgelegt ist und das die Beschreibung BigQuery ML tutorial dataset hat:
```
bq --location=US mk -d \
 --description "BigQuery ML tutorial dataset." \
 bqml_tutorial
```
Anstelle des Flags --dataset verwendet der Befehl die verkürzte Form -d. Wenn Sie -d und --dataset auslassen, wird standardmäßig ein Dataset erstellt.
Prüfen Sie, ob das Dataset erstellt wurde:
```
bq ls
```

API

Rufen Sie die Methode datasets.insert mit einer definierten Dataset-Ressource auf.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Tabelle mit Eingabedaten erstellen

Erstellen Sie eine Tabelle mit Test- und Kontrolldaten, die Sie analysieren möchten. Mit der folgenden Abfrage werden zwei Zwischentabellen erstellt, eine Testtabelle für Spirituosendaten aus dem Jahr 2021 und eine Kontrolltabelle mit Spirituosendaten aus dem Jahr 2020. Anschließend wird eine Union der Zwischentabellen ausgeführt, um eine Tabelle mit Test- und Kontrollzeilen und denselben Spalten zu erstellen.

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Führen Sie im Abfrageeditor folgende Abfrage aus:

CREATE OR REPLACE TABLE bqml_tutorial.iowa_liquor_sales_data AS
(SELECT
  store_name,
  city,
  vendor_name,
  category_name,
  item_description,
  SUM(sale_dollars) AS total_sales,
  SUM(state_bottle_cost) AS total_bottle_cost,
  FALSE AS is_test
FROM `bigquery-public-data.iowa_liquor_sales.sales`
WHERE EXTRACT(YEAR FROM date) = 2020
GROUP BY store_name, city, vendor_name, category_name, item_description, is_test)
UNION ALL
(SELECT
  store_name,
  city,
  vendor_name,
  category_name,
  item_description,
  SUM(sale_dollars) AS total_sales,
  SUM(state_bottle_cost) AS total_bottle_cost,
  TRUE AS is_test
FROM `bigquery-public-data.iowa_liquor_sales.sales`
WHERE EXTRACT(YEAR FROM date) = 2021
GROUP BY store_name, city, vendor_name, category_name, item_description, is_test);

Modell erstellen

So erstellen Sie ein Modell für die Beitragsanalyse:

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Führen Sie im Abfrageeditor folgende Abfrage aus:

CREATE OR REPLACE MODEL bqml_tutorial.liquor_sales_model
OPTIONS(
  model_type = 'CONTRIBUTION_ANALYSIS',
  contribution_metric = 'sum(total_bottle_cost)/sum(total_sales)',
  dimension_id_cols = ['store_name', 'city', 'vendor_name', 'category_name', 'item_description'],
  is_test_col = 'is_test',
  min_apriori_support = 0.05
) AS
SELECT * FROM bqml_tutorial.iowa_liquor_sales_data;

Die Abfrage dauert ungefähr 35 Sekunden. Anschließend wird das Modell liquor_sales_model im bqml_tutorial-Dataset des Bereichs Explorer angezeigt. Da die Abfrage eine CREATE MODEL-Anweisung zum Erstellen eines Modells verwendet, gibt es keine Abfrageergebnisse.

Statistiken aus dem Modell abrufen

Mit der Funktion ML.GET_INSIGHTS können Sie Informationen abrufen, die vom Modell für die Beitragsanalyse generiert wurden.

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Führen Sie im Abfrageeditor folgende Abfrage aus:

SELECT
  *
FROM
  ML.GET_INSIGHTS(
    MODEL `bqml_tutorial.liquor_sales_model`)
ORDER BY aumann_shapley_attribution DESC;

Die ersten Zeilen der Ausgabe sollten in etwa so aussehen:

+---------------------------------------------+------------+--------------+----------------------+---------------------------+------------------+---------------------+---------------------+-------------------------+-----------------------------+--------------------------------+----------------------------+----------------------+
|                contributors                 | store_name |     city     |     vendor_name      |       category_name       | item_description |     ratio_test      |    ratio_control    | regional_relative_ratio | ambient_relative_ratio_test | ambient_relative_ratio_control | aumann_shapley_attribution |   apriori_support    |
+---------------------------------------------+------------+--------------+----------------------+---------------------------+------------------+---------------------+---------------------+-------------------------+-----------------------------+--------------------------------+----------------------------+----------------------+
| ["vendor_name=HEAVEN HILL BRANDS"]          | NULL       | NULL         | HEAVEN HILL BRANDS   | NULL                      | NULL             | 0.06082442061831622 | 0.05884218073008315 |      1.0336873967558387 |          0.8698365450783194 |              0.811596664491199 |      1.5104196544869235E-4 | 0.055361944752340866 |
| ["category_name=CANADIAN WHISKIES"]         | NULL       | NULL         | NULL                 | CANADIAN WHISKIES         | NULL             | 0.05660065322101707 | 0.05527494446064277 |      1.0239839003604652 |          0.7978770326280865 |             0.7503324937642422 |       9.208157188656863E-5 |  0.09035117733470034 |
| ["category_name=STRAIGHT BOURBON WHISKIES"] | NULL       | NULL         | NULL                 | STRAIGHT BOURBON WHISKIES | NULL             |  0.0780561336687973 | 0.07963402619292285 |      0.9801856995111244 |          1.1380300531561078 |              1.123518997118609 |      -3.521056388489075E-5 |  0.09069759353047172 |
| ["vendor_name=JIM BEAM BRANDS"]             | NULL       | NULL         | JIM BEAM BRANDS      | NULL                      | NULL             | 0.07626103548689916 | 0.07922409994920188 |      0.9625989507712601 |          1.1085644148611702 |             1.1170286930895665 |     -1.7964572365978545E-4 |  0.08232281614374977 |
| ["city=CEDAR RAPIDS"]                       | NULL       | CEDAR RAPIDS | NULL                 | NULL                      | NULL             | 0.06564795345695407 | 0.06914461951551351 |      0.9494296724306232 |          0.9431496213564421 |              0.964181423999566 |      -2.369897107336527E-4 | 0.060593459713451064 |
| ["vendor_name=SAZERAC COMPANY  INC"]        | NULL       | NULL         | SAZERAC COMPANY  INC | NULL                      | NULL             | 0.06564824170155907 | 0.06728069733579875 |      0.9757366421740239 |           0.939610729279885 |             0.9343443980070573 |     -3.1033262381369034E-4 |  0.11571276474865996 |
+---------------------------------------------+------------+--------------+----------------------+---------------------------+------------------+---------------------+---------------------+-------------------------+-----------------------------+--------------------------------+----------------------------+----------------------+

In der Ausgabe sehen Sie, dass das Datensegment vendor_name=HEAVEN HILL BRANDS die höchste aumann-shapley-Attribution hat. Das bedeutet, dass es den größten Beitrag zur Änderung des Verkaufsverhältnisses geleistet hat. Dieser Unterschied ist auch in den Spalten ratio_test und ratio_control zu sehen, aus denen hervorgeht, dass sich das Verhältnis in den Testdaten im Vergleich zu den Kontrolldaten erhöht hat. Andere Messwerte wie regional_relative_ratio, ambient_relative_ratio_test und ambient_relative_ratio_control berechnen zusätzliche Statistiken, die das Verhältnis zwischen Kontroll- und Testquotienten und deren Beziehung zur Gesamtpopulation beschreiben. Weitere Informationen finden Sie unter Summierbare Ausgabespalten für Verhältnismesswerte.

Bereinigen

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.