Ottenere informazioni sui dati da un modello di analisi del contributo utilizzando una metrica di rapporto sommabile

In questo tutorial utilizzi una di analisi del contributo per analizzare Contributo del rapporto costo delle vendite dei liquori dell'Iowa set di dati delle vendite. Questo tutorial ti guida nell'esecuzione delle seguenti attività:

  • Creazione di una tabella di input basata su dati sui liquori dell'Iowa disponibili pubblicamente.
  • La creazione di un modello di analisi del contributo, che utilizza un metrica di rapporto sommabile. Questo tipo di modello riassume i valori di due colonne numeriche e determina le differenze di rapporto tra il set di dati di controllo e di test per ogni segmento di dati.
  • Ottieni gli insight sulle metriche dal modello utilizzando Funzione ML.GET_INSIGHTS.

Prima di iniziare questo tutorial, è necessario acquisire familiarità con il caso d'uso di analisi dei contributi.

Autorizzazioni obbligatorie

  • Per creare il set di dati, devi disporre dell'autorizzazione bigquery.datasets.create Identity and Access Management (IAM).

  • Per creare il modello, devi disporre delle seguenti autorizzazioni:

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
  • Per eseguire l'inferenza, devi disporre delle seguenti autorizzazioni:

    • bigquery.models.getData
    • bigquery.jobs.create

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

  • BigQuery ML: You incur costs for the data that you process in BigQuery.

Per generare una stima dei costi basata sull'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Per ulteriori informazioni sui prezzi di BigQuery, consulta Prezzi di BigQuery in documentazione di BigQuery.

Prima di iniziare

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the BigQuery API.

    Enable the API

Crea un set di dati

Crea un set di dati BigQuery per archiviare il tuo modello ML:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai alla pagina di BigQuery

  2. Nel riquadro Explorer, fai clic sul nome del progetto.

  3. Fai clic su Visualizza azioni > Crea set di dati.

    Crea il set di dati.

  4. Nella pagina Crea set di dati:

    • In ID set di dati, inserisci bqml_tutorial.

    • Per Tipo di località, seleziona Più regioni e poi Stati Uniti (più regioni negli Stati Uniti).

      I set di dati pubblici sono archiviati nella US multiregione. Per semplicità, archivia il set di dati nella stessa posizione.

    • Lascia invariate le restanti impostazioni predefinite e fai clic su Crea il set di dati.

      Pagina Crea set di dati.

Crea una tabella di dati di input

Crea una tabella contenente i dati di test e di controllo da analizzare. La seguente query crea due tabelle intermedie, una tabella di test per i dati sul liquore del 2021 e una tabella di controllo con i dati sul liquore del 2020, quindi esegue un'unione delle tabelle intermedie per creare una tabella con righe di test e di controllo e lo stesso insieme di colonne.

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Esegui la seguente istruzione nell'editor query:

    CREATE OR REPLACE TABLE bqml_tutorial.iowa_liquor_sales_data AS
    (SELECT
      store_name,
      city,
      vendor_name,
      category_name,
      item_description,
      SUM(sale_dollars) AS total_sales,
      SUM(state_bottle_cost) AS total_bottle_cost,
      FALSE AS is_test
    FROM `bigquery-public-data.iowa_liquor_sales.sales`
    WHERE EXTRACT(YEAR FROM date) = 2020
    GROUP BY store_name, city, vendor_name, category_name, item_description, is_test)
    UNION ALL
    (SELECT
      store_name,
      city,
      vendor_name,
      category_name,
      item_description,
      SUM(sale_dollars) AS total_sales,
      SUM(state_bottle_cost) AS total_bottle_cost,
      TRUE AS is_test
    FROM `bigquery-public-data.iowa_liquor_sales.sales`
    WHERE EXTRACT(YEAR FROM date) = 2021
    GROUP BY store_name, city, vendor_name, category_name, item_description, is_test);

crea il modello

Crea un modello di analisi dei contributi:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Esegui la seguente istruzione nell'editor query:

    CREATE OR REPLACE MODEL bqml_tutorial.liquor_sales_model
    OPTIONS(
      model_type = 'CONTRIBUTION_ANALYSIS',
      contribution_metric = 'sum(total_bottle_cost)/sum(total_sales)',
      dimension_id_cols = ['store_name', 'city', 'vendor_name', 'category_name', 'item_description'],
      is_test_col = 'is_test',
      min_apriori_support = 0.05
    ) AS
    SELECT * FROM bqml_tutorial.iowa_liquor_sales_data;

Il completamento della query richiede circa 35 secondi, dopodiché il modelloliquor_sales_model viene visualizzato nel set di dati bqml_tutorial nel riquadro Explorer. Poiché la query utilizza un'istruzione CREATE MODEL per creare un modello, non ci sono risultati della query.

Ottenere approfondimenti dal modello

Ricevi gli insight generati dal modello di analisi del contributo utilizzando il Funzione ML.GET_INSIGHTS.

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nell'editor di query, esegui la seguente istruzione:

    SELECT
      *
    FROM
      ML.GET_INSIGHTS(
        MODEL `bqml_tutorial.liquor_sales_model`)
    ORDER BY aumann_shapley_attribution DESC;

    Le prime righe dell'output dovrebbero essere simili alla seguente:

    +---------------------------------------------+------------+--------------+----------------------+---------------------------+------------------+---------------------+---------------------+-------------------------+-----------------------------+--------------------------------+----------------------------+----------------------+
    |                contributors                 | store_name |     city     |     vendor_name      |       category_name       | item_description |     ratio_test      |    ratio_control    | regional_relative_ratio | ambient_relative_ratio_test | ambient_relative_ratio_control | aumann_shapley_attribution |   apriori_support    |
    +---------------------------------------------+------------+--------------+----------------------+---------------------------+------------------+---------------------+---------------------+-------------------------+-----------------------------+--------------------------------+----------------------------+----------------------+
    | ["vendor_name=HEAVEN HILL BRANDS"]          | NULL       | NULL         | HEAVEN HILL BRANDS   | NULL                      | NULL             | 0.06082442061831622 | 0.05884218073008315 |      1.0336873967558387 |          0.8698365450783194 |              0.811596664491199 |      1.5104196544869235E-4 | 0.055361944752340866 |
    | ["category_name=CANADIAN WHISKIES"]         | NULL       | NULL         | NULL                 | CANADIAN WHISKIES         | NULL             | 0.05660065322101707 | 0.05527494446064277 |      1.0239839003604652 |          0.7978770326280865 |             0.7503324937642422 |       9.208157188656863E-5 |  0.09035117733470034 |
    | ["category_name=STRAIGHT BOURBON WHISKIES"] | NULL       | NULL         | NULL                 | STRAIGHT BOURBON WHISKIES | NULL             |  0.0780561336687973 | 0.07963402619292285 |      0.9801856995111244 |          1.1380300531561078 |              1.123518997118609 |      -3.521056388489075E-5 |  0.09069759353047172 |
    | ["vendor_name=JIM BEAM BRANDS"]             | NULL       | NULL         | JIM BEAM BRANDS      | NULL                      | NULL             | 0.07626103548689916 | 0.07922409994920188 |      0.9625989507712601 |          1.1085644148611702 |             1.1170286930895665 |     -1.7964572365978545E-4 |  0.08232281614374977 |
    | ["city=CEDAR RAPIDS"]                       | NULL       | CEDAR RAPIDS | NULL                 | NULL                      | NULL             | 0.06564795345695407 | 0.06914461951551351 |      0.9494296724306232 |          0.9431496213564421 |              0.964181423999566 |      -2.369897107336527E-4 | 0.060593459713451064 |
    | ["vendor_name=SAZERAC COMPANY  INC"]        | NULL       | NULL         | SAZERAC COMPANY  INC | NULL                      | NULL             | 0.06564824170155907 | 0.06728069733579875 |      0.9757366421740239 |           0.939610729279885 |             0.9343443980070573 |     -3.1033262381369034E-4 |  0.11571276474865996 |
    +---------------------------------------------+------------+--------------+----------------------+---------------------------+------------------+---------------------+---------------------+-------------------------+-----------------------------+--------------------------------+----------------------------+----------------------+
    

    Nell'output, puoi vedere che il segmento di dati vendor_name=HEAVEN HILL BRANDS ha la più alta attribuzione di aumann di Shapley, che indica il maggiore contributo di variazione nella percentuale di vendita. Questa differenza è visibile anche nelle colonne ratio_test e ratio_control, che mostrano che il rapporto è aumentato nei dati di test rispetto ai dati di controllo. Altre metriche, come regional_relative_ratio, ambient_relative_ratio_test e ambient_relative_ratio_control, calcolano statistiche aggiuntive che descrivono la relazione tra i rapporti di controllo e di test e il loro rapporto con la popolazione complessiva. Per ulteriori informazioni, consulta le colonne di output delle metriche di rapporto sommabili.

Esegui la pulizia

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.