Questa pagina è stata tradotta dall'API Cloud Translation.

Introduzione all'AI e al ML in BigQuery

BigQuery ML ti consente di creare ed eseguire modelli di machine learning (ML) utilizzando query GoogleSQL o la console Google Cloud . I modelli BigQuery ML vengono archiviati nei set di dati BigQuery, in modo simile a tabelle e viste. BigQuery ML consente anche di accedere ai modelli Vertex AI e alle API Cloud AI per eseguire attività di <x0A>intelligenza artificiale (AI) come la generazione di testo o la traduzione <x0A>automatica. Gemini per Google Cloud fornisce anche assistenza basata sull'AI per le attività BigQuery. Per visualizzare un elenco di funzionalità basate sull'AI in BigQuery, consulta Panoramica di Gemini in BigQuery.

In genere, l'esecuzione di ML o AI su grandi set di dati richiede una programmazione approfondita e la conoscenza dei framework ML. Questi requisiti limitano lo sviluppo di soluzioni a un gruppo molto ristretto di persone all'interno di ogni azienda ed escludono gli analisti di dati che comprendono i dati, ma hanno una conoscenza limitata di ML e competenze di programmazione. Tuttavia, con BigQuery ML, gli esperti di SQL possono utilizzare strumenti e competenze SQL esistenti per creare e valutare modelli e per generare risultati da LLM e API Cloud AI.

Puoi utilizzare le funzionalità di BigQuery ML utilizzando quanto segue:

L'interfaccia utente della console Google Cloud , per lavorare con i modelli utilizzando una UI. (Anteprima)
L'editor di query della console Google Cloud , per lavorare con i modelli utilizzando query SQL.
Strumento a riga di comando bq
API BigQuery REST
Integrato Notebook di Colab Enterprise in BigQuery
Strumenti esterni come un notebook Jupyter o una piattaforma di business intelligence

Vantaggi di BigQuery ML

BigQuery ML offre diversi vantaggi rispetto ad altri approcci all'utilizzo di ML o AI con un data warehouse basato sul cloud:

BigQuery ML democratizza l'utilizzo di ML e AI consentendo ai data analyst, gli utenti principali del data warehouse, di creare ed eseguire modelli utilizzando fogli di lavoro e strumenti di business intelligence esistenti. L'analisi predittiva può guidare il processo decisionale aziendale in tutta l'organizzazione.
Non è necessario programmare una soluzione di ML o AI utilizzando Python o Java. Addestra i modelli e accedi alle risorse di AI utilizzando SQL, un linguaggio che gli analisti di dati conoscono bene.
BigQuery ML aumenta la velocità di sviluppo dei modelli e dell'innovazione eliminando la necessità di spostare i dati dal data warehouse. BigQuery ML porta invece l'ML nei dati, il che offre i seguenti vantaggi:
- Complessità ridotta perché sono necessari meno strumenti.
- Maggiore velocità di produzione perché lo spostamento e la formattazione di grandi quantità di dati per framework ML basati su Python non sono necessari per addestrare un modello in BigQuery.
Per saperne di più, guarda il video Come accelerare lo sviluppo del machine learning con BigQuery ML.

Conoscenze consigliate

Utilizzando le impostazioni predefinite nelle istruzioni CREATE MODEL e nelle funzioni di inferenza, puoi creare e utilizzare modelli BigQuery ML anche senza molte conoscenze di ML. Tuttavia, avere una conoscenza di base del ciclo di vita dello sviluppo di ML, come l'feature engineering e l'addestramento del modello, ti aiuta a ottimizzare sia i dati sia il modello per ottenere risultati migliori. Ti consigliamo di utilizzare le seguenti risorse per acquisire familiarità con le tecniche e i processi di ML:

AI generativa e modelli preaddestrati

Puoi utilizzare le funzionalità di BigQuery ML per eseguire una serie di attività di AI generativa.

Utilizza i modelli remoti, che sono modelli BigQuery ML su modelli Vertex AI, per eseguire le seguenti attività:
- Generazione di testo utilizzando modelli di testo o multimodali Vertex AI.
- Embedding di testo o multimodali utilizzando i modelli di embedding Vertex AI.
Utilizza le funzioni BigQuery ML per eseguire le seguenti attività:
- Genera valori di un tipo specifico utilizzando funzioni sui modelli ospitati su Vertex AI.
- Previsione utilizzando una funzione sul modello di serie temporali TimesFM integrato di BigQuery ML.
Utilizza i modelli remoti tramite le API Cloud AI per eseguire le seguenti attività:
- Elaborazione del linguaggio naturale utilizzando l'API Cloud Natural Language.
- Traduzione automatica utilizzando l'API Cloud Translation.
- Elaborazione dei documenti utilizzando l'API Document AI.
- Trascrizione audio utilizzando l'API Speech-to-Text.
- Computer vision

Modelli supportati

Un modello in BigQuery ML rappresenta ciò che un sistema ML ha appreso dai dati di addestramento. Le sezioni seguenti descrivono i tipi di modelli supportati da BigQuery ML. Per saperne di più sulla creazione di assegnazioni di prenotazione per i diversi tipi di modelli, consulta Assegnare slot ai carichi di lavoro BigQuery ML.

Modelli addestrati internamente

I seguenti modelli sono integrati in BigQuery ML:

L'analisi dei contributi serve a determinare l'effetto di una o più dimensioni sul valore di una determinata metrica. Ad esempio, visualizzare l'effetto della posizione del negozio e della data di vendita sulle entrate del negozio. Per ulteriori informazioni, consulta la panoramica dell'analisi del contributo.
La regressione lineare serve a prevedere il valore di una metrica numerica per i nuovi dati utilizzando un modello addestrato su dati remoti simili. Le etichette sono valori reali, il che significa che non possono essere infinito positivo, infinito negativo o NaN (Not a Number).
La regressione logistica serve per la classificazione di due o più valori possibili, ad esempio se un input è low-value, medium-value o high-value. Le etichette possono avere fino a 50 valori unici.
Il clustering K-means è per la segmentazione dei dati. Ad esempio, questo modello identifica i segmenti di clienti. K-means è una tecnica di apprendimento non supervisionato, quindi l'addestramento del modello non richiede etichette o la suddivisione dei dati per l'addestramento o la valutazione.
La fattorizzazione matriciale serve a creare sistemi di suggerimenti sui prodotti. Puoi creare consigli sui prodotti utilizzando il comportamento storico dei clienti, le transazioni e le valutazioni dei prodotti, per poi utilizzare questi consigli per esperienze cliente personalizzate.
L'analisi delle componenti principali (PCA) è il processo di calcolo delle componenti principali e del loro utilizzo per eseguire un cambio di base sui dati. Viene comunemente utilizzato per la riduzione della dimensionalità proiettando ogni punto dati solo sui primi componenti principali per ottenere dati a dimensioni inferiori, preservando al contempo la maggior parte della variazione dei dati possibile.
Serie temporali serve per eseguire previsioni di serie temporali e rilevare anomalie. I modelli serie temporali ARIMA_PLUS e ARIMA_PLUS_XREG offrono più opzioni di tuning e gestiscono automaticamente anomalie, stagionalità e festività.

Se non vuoi gestire il tuo modello di previsione delle serie temporali, puoi utilizzare la funzione AI.FORECAST con il modello di serie temporali TimesFM integrato di BigQuery ML (anteprima) per eseguire la previsione.

Puoi eseguire un test simulato sulle istruzioni CREATE MODEL per i modelli addestrati internamente per ottenere una stima della quantità di dati che verranno elaborati se li esegui.

Modelli addestrati esternamente

I seguenti modelli sono esterni a BigQuery ML e addestrati in Vertex AI:

Deep neural network (DNN) serve a creare reti neurali profonde basate su TensorFlow per modelli di classificazione e regressione.
Wide & Deep è utile per problemi generici di regressione e classificazione su larga scala con input sparsi (caratteristiche categoriche con un elevato numero di possibili valori per caratteristica), come motori per suggerimenti, ricerca e problemi di classificazione.
Autoencoder serve a creare modelli basati su TensorFlow con il supporto di rappresentazioni di dati sparse. Puoi utilizzare i modelli in BigQuery ML per attività come il rilevamento di anomalie non supervisionato e la riduzione non lineare della dimensionalità.
Boosted Tree consente di creare modelli di classificazione e regressione basati su XGBoost.
Random forest consente di costruire più alberi decisionali del metodo di apprendimento per classificazione, regressione e altre attività durante l'addestramento.
AutoML è un servizio ML con supervisione che crea ed esegue il deployment di modelli di classificazione e regressione su dati tabulari a velocità e scalabilità elevate.

Non puoi eseguire una prova generale sulle istruzioni CREATE MODEL per i modelli addestrati esternamente per ottenere una stima della quantità di dati che elaboreranno se le esegui.

Modelli remoti

Puoi creare modelli remoti in BigQuery che utilizzano modelli di cui è stato eseguito il deployment in Vertex AI. Fai riferimento al modello di cui è stato eseguito il deployment specificando l'endpoint HTTPS del modello nell'istruzione CREATE MODEL del modello remoto.

Le istruzioni CREATE MODEL per i modelli remoti non elaborano byte e non comportano addebiti di BigQuery.

Modelli importati

BigQuery ML consente di importare modelli personalizzati addestrati al di fuori di BigQuery ed eseguire poi la previsione all'interno di BigQuery. Puoi importare i seguenti modelli in BigQuery da Cloud Storage:

Open Neural Network Exchange (ONNX) è un formato standard aperto per rappresentare i modelli di ML. Utilizzando ONNX, puoi rendere disponibili in BigQuery ML i modelli addestrati con framework ML popolari come PyTorch e scikit-learn.
TensorFlow è una libreria software open source gratuita per ML e intelligenza artificiale. Puoi utilizzare TensorFlow per una serie di attività, ma si concentra in particolare sull'addestramento e sull'inferenza di reti neurali profonde. Puoi caricare modelli TensorFlow precedentemente addestrati in BigQuery come modelli BigQuery ML ed eseguire la previsione in BigQuery ML.
TensorFlow Lite è una versione leggera di TensorFlow per il deployment su dispositivi mobili, microcontrollori e altri dispositivi edge. TensorFlow ottimizza i modelli TensorFlow esistenti per ridurre le dimensioni del modello e velocizzare l'inferenza.
XGBoost è una libreria di potenziamento del gradiente distribuita e ottimizzata, progettata per essere altamente efficiente, flessibile e portabile. Implementa algoritmi di ML nel framework di gradient boosting.

Le istruzioni CREATE MODEL per i modelli importati non elaborano byte e non comportano addebiti di BigQuery.

In BigQuery ML, puoi utilizzare un modello con dati provenienti da più dataset BigQuery per l'addestramento e la previsione.

Guida alla selezione del modello

Scarica l'albero decisionale per la selezione del modello.

BigQuery ML e Vertex AI

BigQuery ML si integra con Vertex AI, la piattaforma end-to-end per l'AI e l'ML in Google Cloud. Puoi registrare i tuoi modelli BigQuery ML in Model Registry per eseguirne il deployment negli endpoint per la previsione online. Per maggiori informazioni, consulta le seguenti risorse:

Per saperne di più sull'utilizzo dei modelli BigQuery ML con Vertex AI, consulta Gestire i modelli BigQuery ML con Vertex AI.
Se non hai familiarità con Vertex AI e vuoi saperne di più su come si integra con BigQuery ML, consulta Vertex AI per gli utenti BigQuery.
Guarda il video Come semplificare i modelli di AI con Vertex AI e BigQuery ML.

BigQuery ML e Colab Enterprise

Ora puoi utilizzare i notebook Colab Enterprise per eseguire flussi di lavoro ML in BigQuery. Notebooks ti consentono di utilizzare SQL, Python e altri linguaggi e librerie popolari per svolgere le attività di ML. Per saperne di più, consulta Creare notebook.

Aree geografiche supportate

BigQuery ML è supportato nelle stesse regioni di BigQuery. Per ulteriori informazioni, vedi Località BigQuery ML.

Prezzi

Ti vengono addebitati i costi delle risorse di calcolo che utilizzi per addestrare i modelli e per eseguire query sui modelli. Il tipo di modello che crei influisce sulla posizione in cui viene addestrato il modello e sui prezzi applicati all'operazione. Le query sui modelli vengono sempre eseguite in BigQuery e utilizzano i prezzi di calcolo di BigQuery. Poiché i modelli remoti effettuano chiamate ai modelli Vertex AI, anche le query sui modelli remoti comportano addebiti da Vertex AI.

Ti vengono addebitati i costi per lo spazio di archiviazione utilizzato dai modelli addestrati, in base ai prezzi di archiviazione di BigQuery.

Per ulteriori informazioni, vedi Prezzi di BigQuery ML.

Quote

Oltre ai limiti specifici di BigQuery ML, le query che utilizzano le funzioni BigQuery ML e le istruzioni CREATE MODEL sono soggette alle quote e ai limiti dei job di query di BigQuery.

Limitazioni

BigQuery ML non è disponibile nella Standard edition.

Passaggi successivi

Per iniziare a utilizzare BigQuery ML, consulta Creare modelli di machine learning in BigQuery ML.
Per saperne di più sul machine learning e su BigQuery ML, consulta le seguenti risorse:
Per scoprire di più su MLOps con Model Registry, consulta Gestire i modelli BigQuery ML in Vertex AI.
Per saperne di più sulle istruzioni e sulle funzioni SQL supportate per i diversi tipi di modelli, consulta i seguenti documenti: