Introduzione all'AI e al ML in BigQuery

BigQuery ML consente di creare ed eseguire modelli di machine learning (ML) utilizzando query GoogleSQL. Consente inoltre di accedere ai modelli Vertex AI e alle API Cloud AI per eseguire attività di intelligenza artificiale (IA) come la generazione di testo o la traduzione automatica. Gemini per Google Cloud fornisce inoltre assistenza basata sull&#39AIA per le attività di BigQuery. Per un elenco di funzionalità basate sull'AI in BigQuery, vedi Panoramica di Gemini in BigQuery.

Generalmente, l'esecuzione di ML o AI su set di dati di grandi dimensioni richiede un'ampia programmazione e conoscenza dei framework ML. Questi requisiti limitano lo sviluppo delle soluzioni a un gruppo molto ristretto di persone all'interno di ciascuna azienda ed escludono gli analisti di dati che comprendono i dati, ma hanno una conoscenza limitata dell'ML e un'esperienza di programmazione limitata. Tuttavia, con BigQuery ML, i professionisti SQL possono utilizzare gli strumenti e le competenze SQL esistenti per creare e valutare modelli e per generare risultati da LLM e API di IA Cloud.

Puoi lavorare con le funzionalità di BigQuery ML utilizzando:

  • Nella console Google Cloud
  • Lo strumento a riga di comando bq
  • L'API REST di BigQuery
  • Integrazione Blocchi note Colab Enterprise in BigQuery
  • Strumenti esterni come un blocco note Jupyter o una piattaforma di business intelligence

Vantaggi di BigQuery ML

BigQuery ML offre diversi vantaggi rispetto ad altri approcci all'uso di ML o AI con un data warehouse basato su cloud.

  • BigQuery ML democratizza l'uso di ML e AI fornendo agli analisti di dati, i principali utenti del data warehouse, di creare ed eseguire modelli utilizzando fogli di lavoro e strumenti di business intelligence esistenti. L'analisi predittiva può guidare il processo decisionale aziendale in tutta l'organizzazione.
  • Non è necessario programmare una soluzione ML o AI utilizzando Python o Java. Puoi addestrare i modelli e accedere alle risorse AI utilizzando SQL, un linguaggio familiare agli analisti di dati.
  • BigQuery ML aumenta la velocità di sviluppo e innovazione dei modelli eliminando la necessità di spostare i dati dal data warehouse. BigQuery ML integra il machine learning nei dati, il che offre i seguenti vantaggi:

    • Complessità ridotta perché sono necessari meno strumenti.
    • Maggiore velocità in produzione perché non è necessario spostare e formattare grandi quantità di dati per framework ML basati su Python per addestrare un modello in BigQuery.

    Per saperne di più, guarda il video Come accelerare lo sviluppo del machine learning con BigQuery ML.

Risorse IA supportate

Puoi utilizzare modelli remoti per accedere a risorse AI come gli LLM da BigQuery ML. BigQuery ML supporta le seguenti risorse di AI:

Modelli supportati

Un model in BigQuery ML rappresenta ciò che un sistema di ML ha imparato dall'addestramento dei dati. Le sezioni seguenti descrivono i tipi di modelli supportati da BigQuery ML.

Modelli addestrati internamente

I seguenti modelli sono integrati in BigQuery ML:

  • La regressione lineare è per la previsione. Ad esempio, questo modello prevede le vendite di un articolo in un determinato giorno. Le etichette sono a valore reale, ovvero non possono essere infinito positivo o infinito negativo o NaN (non un numero).
  • La regressione logistica è per la classificazione di due o più valori possibili, ad esempio se un input è low-value, medium-value o high-value. Le etichette possono avere fino a 50 valori univoci.
  • Il clustering K-means è per la segmentazione dei dati. Ad esempio, questo modello identifica i segmenti di clienti. K-means è una tecnica di apprendimento non supervisionato, quindi l'addestramento del modello non richiede etichette né la suddivisione dei dati per l'addestramento o la valutazione.
  • La fattorizzazione matriciale consente di creare sistemi di suggerimenti sui prodotti. Puoi creare suggerimenti sui prodotti utilizzando il comportamento storico dei clienti, le transazioni e le valutazioni dei prodotti e quindi utilizzare questi suggerimenti per esperienze cliente personalizzate.
  • L'analisi delle componenti principali (PCA) è il processo di calcolo delle componenti principali e di utilizzo per eseguire una variazione di base dei dati. Di solito viene utilizzato per la riduzione della dimensionalità proponendo ogni punto dati solo sui primi componenti principali per ottenere dati a bassa dimensionalità, preservando il più possibile la variazione dei dati.
  • Serie temporali consente di eseguire previsioni di serie temporali. Puoi usare questa funzione per creare milioni di modelli di serie temporali da usare per le previsioni. Il modello gestisce automaticamente anomalie, stagionalità e festività.

Puoi eseguire una prova sulle istruzioni CREATE MODEL per i modelli addestrati internamente per ottenere una stima della quantità di dati elaborati se le esegui.

Modelli addestrati esternamente

I seguenti modelli sono esterni a BigQuery ML e addestrati in Vertex AI:

  • DNN (Deep Neural Network) consente di creare reti neurali profonde basate su TensorFlow per modelli di classificazione e regressione.
  • Wide and Deep è utile per problemi generici di regressione e classificazione su larga scala con input sparsi (caratteristiche categoriche con un ampio numero di possibili valori per le caratteristiche), come sistemi per suggerimenti, ricerca e problemi di ranking.
  • Autoencoder consente di creare modelli basati su TensorFlow con il supporto di rappresentazioni di dati sparse. Puoi utilizzare i modelli in BigQuery ML per attività come il rilevamento di anomalie non supervisionato e la riduzione della dimensionalità non lineare.
  • L'albero potenziato è per creare modelli di classificazione e regressione basati su XGBoost.
  • La foresta casuale consente di creare più alberi decisionali dei metodi di apprendimento per classificazione, regressione e altre attività durante l'addestramento.
  • AutoML è un servizio di ML supervisionato che crea ed esegue il deployment di modelli di classificazione e regressione su dati tabulari ad alta velocità e scalabilità.

Non puoi eseguire una prova sulle istruzioni CREATE MODEL per i modelli addestrati esternamente per ottenere una stima della quantità di dati elaborati se le esegui.

Modelli remoti

Puoi creare modelli remoti in BigQuery che utilizzano modelli di cui è stato eseguito il deployment in Vertex AI. Fai riferimento al modello di cui hai eseguito il deployment specificando l'endpoint HTTPS del modello nell'istruzione CREATE MODEL del modello remoto.

Le istruzioni CREATE MODEL per i modelli remoti non elaborano alcun byte e non comportano addebiti di BigQuery.

Modelli importati

BigQuery ML ti consente di importare modelli personalizzati addestrati al di fuori di BigQuery e quindi di eseguire previsioni all'interno di BigQuery. Puoi importare i seguenti modelli in BigQuery da Cloud Storage:

  • ONNX (Open Neural Network Exchange) è un formato standard aperto per la rappresentazione dei modelli ML. Con ONNX puoi rendere disponibili in BigQuery ML modelli addestrati con framework ML popolari, come PyTorch e scikit-learn.
  • TensorFlow è una libreria software open source gratuita per ML e intelligenza artificiale. Puoi utilizzare TensorFlow per varie attività, ma si occupa in particolare dell'addestramento e dell'inferenza delle reti neurali profonde. Puoi caricare modelli TensorFlow addestrati in precedenza in BigQuery come modelli BigQuery ML e quindi eseguire previsioni in BigQuery ML.
  • TensorFlow Lite è una versione leggera di TensorFlow per il deployment su dispositivi mobili, microcontroller e altri dispositivi periferici. TensorFlow ottimizza i modelli TensorFlow esistenti per ridurre le dimensioni dei modelli e velocizzare l'inferenza.
  • XGBoost è una libreria ottimizzata per l'aumento del gradiente distribuito, progettata per essere altamente efficiente, flessibile e portabile. Implementare algoritmi ML nel framework di incremento del gradiente.

Le istruzioni CREATE MODEL per i modelli importati non elaborano alcun byte e non sono soggette ad addebiti di BigQuery.

In BigQuery ML, puoi utilizzare un modello con dati provenienti da più set di dati BigQuery per l'addestramento e la previsione.

Guida alla selezione del modello

Questo albero decisionale mappa i modelli ML alle azioni che vuoi realizzare. Scarica l'albero decisionale per la selezione del modello.

BigQuery ML e Vertex AI

BigQuery ML si integra con Vertex AI, la piattaforma end-to-end per IA e ML in Google Cloud. Quando registri i tuoi modelli BigQuery ML in Model Registry, puoi eseguire il deployment di questi modelli negli endpoint per la previsione online. Per ulteriori informazioni, consulta quanto segue:

BigQuery ML e Colab Enterprise

Ora puoi usare i blocchi note Colab Enterprise per eseguire flussi di lavoro ML in BigQuery. Notebooks consente di usare SQL, Python e altri linguaggi e librerie popolari Per ulteriori informazioni, consulta la sezione Creare blocchi note.

Aree geografiche supportate

BigQuery ML è supportato nelle stesse regioni di BigQuery. Per ulteriori informazioni, consulta Località di BigQuery ML.

Prezzi

I modelli BigQuery ML sono archiviati in set di dati BigQuery come tabelle e viste. Per informazioni sui prezzi di BigQuery ML, consulta Prezzi di BigQuery ML.

Per i prezzi dell'archiviazione di BigQuery, vedi Prezzi dell'archiviazione.

Per i prezzi delle query di BigQuery ML, consulta Prezzi delle query.

Quote

Oltre ai limiti specifici di BigQuery ML, le query che utilizzano le funzioni di BigQuery ML e le istruzioni CREATE MODEL sono soggette a quote e limiti sui job di query di BigQuery.

Limitazioni

Passaggi successivi