BigQuery ML supporta l'apprendimento non supervisionato . Puoi applicare l'algoritmo K-means per raggruppare i dati in cluster. A differenza del machine learning supervisionato, che riguarda l'analisi predittiva, l'apprendimento non supervisionato si occupa dell'analisi descrittiva. Si tratta di comprendere i dati in modo da poter prendere decisioni basate sui dati.
In questo tutorial utilizzerai un modello K-means in BigQuery ML per creare cluster di dati nel set di dati pubblico London Noleggias. I dati dei noleggi di biciclette di Londra contengono il numero di persone che noleggiano biciclette a Londra dal 2011 a oggi. I dati includono i timestamp di partenza e di arrivo, i nomi delle stazioni e la durata della corsa.
Le query in questo tutorial utilizzano le funzioni geografiche disponibili nell'analisi geospaziale. Per ulteriori informazioni sull'analisi geospaziale, consulta Introduzione all'analisi geospaziale.
Obiettivi
In questo tutorial:- Creare un modello di clustering K-means.
- Prendi decisioni basate sui dati in base alla visualizzazione dei cluster da parte di BigQuery ML.
Costi
Questo tutorial utilizza i componenti fatturabili di Google Cloud, tra cui:
- BigQuery
- BigQuery ML
Per informazioni sui costi di BigQuery, consulta la pagina Prezzi di BigQuery.
Per informazioni sui costi di BigQuery ML, consulta Prezzi di BigQuery ML.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
- BigQuery viene abilitato automaticamente nei nuovi progetti.
Per attivare BigQuery in un progetto preesistente, vai a
Attiva l'API BigQuery.
Introduzione
I dati potrebbero contenere raggruppamenti naturali o cluster di dati e potresti voler identificare questi raggruppamenti in modo descrittivo per prendere decisioni basate sui dati. Ad esempio, per un rivenditore potresti voler identificare raggruppamenti naturali di clienti che hanno abitudini d'acquisto o sedi simili. Questo processo è noto come segmentazione dei clienti.
I dati utilizzati per la segmentazione dei clienti potrebbero includere il negozio visitato, i prodotti acquistati e l'importo pagato. Devi creare un modello per cercare di capire come sono questi gruppi di clienti tipo, in modo da progettare elementi che attirano i membri del gruppo.
Potresti anche trovare gruppi di prodotti tra gli articoli acquistati. In questo caso, dovresti raggruppare gli articoli in base a chi li ha acquistati, a quando sono stati acquistati, a dove sono stati acquistati e ad altre caratteristiche simili. Devi creare un modello per determinare le caratteristiche di un gruppo di prodotti in modo da prendere decisioni consapevoli, ad esempio su come migliorare il cross-sell.
In questo tutorial utilizzerai BigQuery ML per creare un modello K-means che raggruppa i dati di London Guest Noleggias in base ad attributi delle stazioni di noleggio delle biciclette.
Per creare un modello K-means, segui questi passaggi.
- Passaggio 1: crea un set di dati per archiviare il modello
- Il primo passaggio consiste nel creare un set di dati in cui archiviare il modello.
- Passaggio due: esamina i dati di addestramento
- Il passaggio successivo consiste nell'esaminare i dati che utilizzi per addestrare il modello di clustering
eseguendo una query sulla tabella
london_bicycles
. Poiché K-means è una tecnica di apprendimento non supervisionato, l'addestramento del modello non richiede etichette né richiede la suddivisione dei dati in dati di addestramento e dati di valutazione.
- Passaggio 3. Crea un modello K-means.
- Il terzo passaggio consiste nel creare il modello K-means. Quando crei il modello, il campo di clustering è
station_name
e i dati vengono raggruppati in base all'attributo della stazione, ad esempio la distanza della stazione dal centro città.
- Passaggio quattro: usa la funzione
ML.PREDICT
per prevedere il cluster di una stazione. - Successivamente, userai la funzione
ML.PREDICT
per prevedere il cluster per un determinato insieme di stazioni. Prevedi i cluster per tutti i nomi delle stazioni che contengono la stringaKennington
.
- Passaggio quattro: usa la funzione
- Passaggio 5: usa il modello per prendere decisioni basate sui dati.
- L'ultimo passaggio consiste nell'utilizzare il modello per prendere decisioni basate sui dati. Ad esempio, in base ai risultati del modello, puoi determinare quali stazioni trarrebbero vantaggio dalla capacità aggiuntiva.
Passaggio 1: crea il set di dati
Crea un set di dati BigQuery per archiviare il tuo modello ML:
Nella console Google Cloud, vai alla pagina BigQuery.
Nel riquadro Explorer, fai clic sul nome del tuo progetto.
Fai clic su
Visualizza azioni > Crea set di dati.Nella pagina Crea set di dati, segui questi passaggi:
In ID set di dati, inserisci
bqml_tutorial
.In Tipo di località, seleziona Più regioni, quindi seleziona UE (più regioni nell'Unione Europea).
Il set di dati pubblico Londra Noleggio biciclette viene archiviato nella più regioni
EU
. Il set di dati deve trovarsi nella stessa località.Lascia invariate le restanti impostazioni predefinite e fai clic su Crea set di dati.
Passaggio 2: esamina i dati di addestramento
Esamina quindi i dati utilizzati per addestrare il modello K-means. In questo tutorial, raggruppi le stazioni per le biciclette in base ai seguenti attributi:
- Durata dei noleggi
- Numero di viaggi al giorno
- Distanza dal centro città
SQL
La seguente query GoogleSQL viene usata per esaminare i dati usati per addestrare il modello K-means.
#standardSQL WITH hs AS ( SELECT h.start_station_name AS station_name, IF (EXTRACT(DAYOFWEEK FROM h.start_date) = 1 OR EXTRACT(DAYOFWEEK FROM h.start_date) = 7, "weekend", "weekday") AS isweekday, h.duration, ST_DISTANCE(ST_GEOGPOINT(s.longitude, s.latitude), ST_GEOGPOINT(-0.1, 51.5))/1000 AS distance_from_city_center FROM `bigquery-public-data.london_bicycles.cycle_hire` AS h JOIN `bigquery-public-data.london_bicycles.cycle_stations` AS s ON h.start_station_id = s.id WHERE h.start_date BETWEEN CAST('2015-01-01 00:00:00' AS TIMESTAMP) AND CAST('2016-01-01 00:00:00' AS TIMESTAMP) ), stationstats AS ( SELECT station_name, isweekday, AVG(duration) AS duration, COUNT(duration) AS num_trips, MAX(distance_from_city_center) AS distance_from_city_center FROM hs GROUP BY station_name, isweekday ) SELECT * FROM stationstats ORDER BY distance_from_city_center ASC
Dettagli query
Questa query estrae i dati sui noleggi di biciclette, tra cui start_station_name
e
duration
, e li unisce alle informazioni sulla stazione, tra cui distance-from-city-center
. Successivamente, calcola gli attributi della
stazione nel fuso orario stationstats
, tra cui la durata media delle corse e
il numero di corse, e passa per l'attributo della stazione distance_from_city_center
.
Questa query utilizza la clausola WITH
per definire le sottoquery. La query utilizza anche le funzioni di analisi geospaziale
ST_DISTANCE
e ST_GEOGPOINT
. Per ulteriori informazioni su queste funzioni, consulta Funzioni geografiche. Per ulteriori informazioni sull'analisi geospaziale, consulta Introduzione all'analisi geospaziale.
Esegui la query
La seguente query compila i dati di addestramento e viene utilizzata anche
nell'istruzione CREATE MODEL
più avanti in questo tutorial.
Per eseguire la query:
- Vai alla pagina BigQuery.
Nel riquadro dell'editor, esegui la seguente istruzione SQL:
WITH hs AS ( SELECT h.start_station_name AS station_name, IF (EXTRACT(DAYOFWEEK FROM h.start_date) = 1 OR EXTRACT(DAYOFWEEK FROM h.start_date) = 7, "weekend", "weekday") AS isweekday, h.duration, ST_DISTANCE(ST_GEOGPOINT(s.longitude, s.latitude), ST_GEOGPOINT(-0.1, 51.5))/1000 AS distance_from_city_center FROM `bigquery-public-data.london_bicycles.cycle_hire` AS h JOIN `bigquery-public-data.london_bicycles.cycle_stations` AS s ON h.start_station_id = s.id WHERE h.start_date BETWEEN CAST('2015-01-01 00:00:00' AS TIMESTAMP) AND CAST('2016-01-01 00:00:00' AS TIMESTAMP) ), stationstats AS ( SELECT station_name, isweekday, AVG(duration) AS duration, COUNT(duration) AS num_trips, MAX(distance_from_city_center) AS distance_from_city_center FROM hs GROUP BY station_name, isweekday ) SELECT * FROM stationstats ORDER BY distance_from_city_center ASC
Una volta completata la query, fai clic sulla scheda Risultati sotto l'area di testo della query. La scheda dei risultati mostra le colonne per cui hai eseguito query e utilizzate per addestrare il tuo modello:
station_name
,duration
,num_trips
,distance_from_city_center
. I risultati dovrebbero essere simili ai seguenti.
DataFrame BigQuery
Prima di provare questo esempio, segui le istruzioni per la configurazione di BigQuery DataFrames nella guida rapida di BigQuery sull'utilizzo di BigQuery DataFrames. Per maggiori informazioni, consulta la documentazione di riferimento di BigQuery DataFrames.
Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configurare l'autenticazione per un ambiente di sviluppo locale.
Passaggio 3. Crea un modello K-means
Ora che hai esaminato i dati di addestramento, il passaggio successivo consiste nel creare un modello K-means utilizzando i dati.
SQL
Puoi creare e addestrare un modello K-means utilizzando l'istruzione
CREATE MODEL
con l'opzione model_type=kmeans
.
Dettagli query
L'istruzione CREATE MODEL
specifica il numero di cluster da utilizzare,
quattro. Nell'istruzione SELECT
, la clausola EXCEPT
esclude la colonna station_name
perché station_name
non è una funzionalità. La query crea una riga univoca
per Station_name e solo le caratteristiche vengono menzionate nell'istruzione SELECT
.
Se ometti l'opzione num_clusters
, BigQuery ML sceglie un valore predefinito ragionevole in base al numero totale di righe nei dati di addestramento. Potresti anche eseguire l'ottimizzazione degli iperparametri per trovare un buon numero. Per determinare un numero ottimale di cluster, devi eseguire la query CREATE MODEL
per diversi valori di num_clusters
, trovare la misura dell'errore e scegliere il punto in cui la misura dell'errore corrisponde al valore minimo. Puoi ottenere la misura dell'errore selezionando il tuo modello e facendo clic sulla scheda Valutazione. Questa scheda mostra
l'indice Davies-Bouldin.
Esegui la query
La seguente query aggiunge un'istruzione CREATE MODEL
alla query che hai utilizzato per esaminare i dati di addestramento e rimuove anche i campi id
nei dati.
Per eseguire la query e creare un modello K-means:
- Vai alla pagina BigQuery.
Nel riquadro dell'editor, esegui la seguente istruzione SQL:
CREATE OR REPLACE MODEL `bqml_tutorial.london_station_clusters` OPTIONS(model_type='kmeans', num_clusters=4) AS WITH hs AS ( SELECT h.start_station_name AS station_name, IF (EXTRACT(DAYOFWEEK FROM h.start_date) = 1 OR EXTRACT(DAYOFWEEK FROM h.start_date) = 7, "weekend", "weekday") AS isweekday, h.duration, ST_DISTANCE(ST_GEOGPOINT(s.longitude, s.latitude), ST_GEOGPOINT(-0.1, 51.5))/1000 AS distance_from_city_center FROM `bigquery-public-data.london_bicycles.cycle_hire` AS h JOIN `bigquery-public-data.london_bicycles.cycle_stations` AS s ON h.start_station_id = s.id WHERE h.start_date BETWEEN CAST('2015-01-01 00:00:00' AS TIMESTAMP) AND CAST('2016-01-01 00:00:00' AS TIMESTAMP) ), stationstats AS ( SELECT station_name, isweekday, AVG(duration) AS duration, COUNT(duration) AS num_trips, MAX(distance_from_city_center) AS distance_from_city_center FROM hs GROUP BY station_name, isweekday) SELECT * EXCEPT(station_name, isweekday) FROM stationstats
Nel pannello di navigazione, nella sezione Risorse, espandi il nome del progetto, fai clic su bqml_tutorial, quindi su london_station_clusters.
Fai clic sulla scheda Schema. Lo schema del modello elenca i quattro attributi della stazione che BigQuery ML ha usato per Lo schema dovrebbe essere simile al seguente.
- Fai clic sulla scheda Valutazione. Questa scheda mostra le visualizzazioni dei cluster identificati dal modello K-means. In Caratteristiche numeriche, i grafici a barre mostrano fino a 10 dei valori delle caratteristiche numeriche più importanti per ciascun centroide. Puoi selezionare le funzionalità da visualizzare dal menu a discesa.
DataFrame BigQuery
Prima di provare questo esempio, segui le istruzioni per la configurazione di BigQuery DataFrames nella guida rapida di BigQuery sull'utilizzo di BigQuery DataFrames. Per maggiori informazioni, consulta la documentazione di riferimento di BigQuery DataFrames.
Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configurare l'autenticazione per un ambiente di sviluppo locale.
Passaggio 4: usa la funzione ML.PREDICT
per prevedere il cluster di una stazione
Per identificare il cluster a cui appartiene una determinata stazione, utilizza la funzione ML.PREDICT
funzione SQL o la funzione predict
BigQuery DataFrames
SQL
Dettagli query
Questa query utilizza la funzione REGEXP_CONTAINS
per trovare tutte le voci della colonna station_name
contenenti la
stringa "Kennington". La funzione ML.PREDICT
usa questi valori per prevedere
quali cluster conterrebbero queste stazioni.
Esegui la query
La seguente query prevede il cluster di ogni stazione che ha la stringa "Kennington" nel nome.
Per eseguire la query ML.PREDICT
:
- Vai alla pagina BigQuery.
Nel riquadro dell'editor, esegui la seguente istruzione SQL:
WITH hs AS ( SELECT h.start_station_name AS station_name, IF (EXTRACT(DAYOFWEEK FROM h.start_date) = 1 OR EXTRACT(DAYOFWEEK FROM h.start_date) = 7, "weekend", "weekday") AS isweekday, h.duration, ST_DISTANCE(ST_GEOGPOINT(s.longitude, s.latitude), ST_GEOGPOINT(-0.1, 51.5))/1000 AS distance_from_city_center FROM `bigquery-public-data.london_bicycles.cycle_hire` AS h JOIN `bigquery-public-data.london_bicycles.cycle_stations` AS s ON h.start_station_id = s.id WHERE h.start_date BETWEEN CAST('2015-01-01 00:00:00' AS TIMESTAMP) AND CAST('2016-01-01 00:00:00' AS TIMESTAMP) ), stationstats AS ( SELECT station_name, isweekday, AVG(duration) AS duration, COUNT(duration) AS num_trips, MAX(distance_from_city_center) AS distance_from_city_center FROM hs GROUP BY station_name, isweekday ) SELECT * EXCEPT(nearest_centroids_distance) FROM ML.PREDICT( MODEL `bqml_tutorial.london_station_clusters`, ( SELECT * FROM stationstats WHERE REGEXP_CONTAINS(station_name, 'Kennington')))
Una volta completata la query, fai clic sulla scheda Risultati sotto l'area di testo della query. I risultati dovrebbero essere simili ai seguenti.
DataFrame BigQuery
Prima di provare questo esempio, segui le istruzioni per la configurazione di BigQuery DataFrames nella guida rapida di BigQuery sull'utilizzo di BigQuery DataFrames. Per maggiori informazioni, consulta la documentazione di riferimento di BigQuery DataFrames.
Per eseguire l'autenticazione su BigQuery, configura Credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configurare l'autenticazione per un ambiente di sviluppo locale.
Passaggio 5: usa il modello per prendere decisioni basate sui dati
I risultati della valutazione possono aiutarti a interpretare i diversi cluster. Nell'esempio di seguito, il centroide 3 mostra una stazione trafficata e vicina al centro città. Centroid 2 mostra la seconda stazione cittadina, meno affollata, utilizzata per noleggi di durata superiore. Centroid 1 mostra una stazione meno affollata, con noleggi di durata inferiore. Centroid 4 mostra una stazione di periferia con corse più lunghe.
In base a questi risultati, puoi utilizzare questi dati per prendere decisioni più consapevoli. Ad esempio:
Supponiamo di dover sperimentare un nuovo tipo di blocco. Quale cluster di stazioni dovresti scegliere come oggetto dell'esperimento? Le stazioni nel centroide 1, 2 o 4 sembrano scelte logiche perché non sono le stazioni più trafficate.
Supponiamo di voler mettere in magazzino alcune stazioni di biciclette da corsa. Quali stazioni dovresti scegliere? Il Centroid 4 è il gruppo di stazioni distanti dal centro città, che offre le corse più lunghe. Questi sono probabilmente candidati per le biciclette da corsa.
Esegui la pulizia
Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
- Puoi eliminare il progetto che hai creato.
- In alternativa, puoi mantenere il progetto ed eliminare il set di dati.
Elimina il set di dati
L'eliminazione del progetto rimuove tutti i set di dati e tutte le tabelle nel progetto. Se preferisci riutilizzare il progetto, puoi eliminare il set di dati creato in questo tutorial:
Se necessario, apri la pagina BigQuery nella console Google Cloud.
Nel menu di navigazione, fai clic sul set di dati bqml_tutorial che hai creato.
Fai clic su Elimina set di dati sul lato destro della finestra. Questa azione elimina il set di dati e il modello.
Nella finestra di dialogo Elimina set di dati, digita il nome del set di dati (
bqml_tutorial
) per confermare il comando di eliminazione, quindi fai clic su Elimina.
Elimina il progetto
Per eliminare il progetto:
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Passaggi successivi
- Per una panoramica di BigQuery ML, consulta Introduzione a BigQuery ML.
- Per informazioni sulla creazione di modelli, consulta la pagina della sintassi di
CREATE MODEL
.