Utilizza BigQuery DataFrames
Per ricevere assistenza durante l'anteprima, invia un'email all'indirizzo bigframes-feedback@google.com.
Questo documento descrive come utilizzare DataFrames BigQuery per analizzare e manipolare i dati in un blocco note BigQuery.
BigQuery DataFrames è una libreria client di Python che puoi utilizzare per analizzare i dati ed eseguire attività di machine learning nei blocchi note di BigQuery.
BigQuery DataFrames è costituito dalle seguenti parti:
bigframes.pandas
implementa un'API simile a quella di Panda su BigQuery.bigframes.ml
implementa un'API simile a scikit-learn su BigQuery ML.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Assicurati che l'API BigQuery sia abilitata.
Se hai creato un nuovo progetto, l'API BigQuery viene abilitata automaticamente.
Autorizzazioni obbligatorie
Per utilizzare BigQuery DataFrames in un blocco note BigQuery, devi disporre dei seguenti ruoli IAM (Identity and Access Management):
- Utente BigQuery (
roles/bigquery.user
) - Utente runtime blocco note (
roles/aiplatform.notebookRuntimeUser
) - Creatore di codice (
roles/dataform.codeCreator
)
Crea un blocco note
Per creare un nuovo blocco note, segui le istruzioni riportate in Creare un blocco note dall'editor BigQuery.
Configura le opzioni di BigQuery DataFrames
Dopo l'installazione, devi specificare la posizione e il progetto in cui vuoi utilizzare BigQuery DataFrames.
Puoi definire la posizione e il progetto nel blocco note nel seguente modo:
Utilizza bigframes.pandas
L'API bigframes.pandas
fornisce un'API simile a pandas
che puoi utilizzare per analizzare e manipolare i dati in BigQuery. L'API bigframes.pandas
è scalabile per supportare l'elaborazione di terabyte di dati BigQuery e utilizza il motore di query BigQuery per eseguire i calcoli.
L'API bigframes.pandas
offre le seguenti funzionalità:
- Input e output
- Puoi accedere ai dati da varie origini, tra cui file CSV locali, file Cloud Storage,
pandas
DataFrame, modelli BigQuery e funzioni BigQuery, quindi caricarli in un DataFrame BigQuery. Puoi anche creare tabelle BigQuery da BigQuery DataFrames. - Manipolazione dei dati
- Per lo sviluppo puoi utilizzare Python anziché SQL.
Puoi sviluppare tutte le manipolazioni dei dati BigQuery in Python, eliminando la necessità di passare da un linguaggio all'altro e provare ad acquisire le istruzioni SQL come stringhe di testo. L'API
bigframes.pandas
offre oltre 250 funzionipandas
. - Ecosistema e visualizzazioni Python
- L'API
bigframes.pandas
è un gateway all'intero ecosistema di strumenti Python. L'API supporta operazioni statistiche avanzate e puoi visualizzare le aggregazioni generate da BigQuery DataFrames. Puoi anche passare da un DataFrame BigQuery a un DataFramepandas
con operazioni di campionamento integrate. - Funzioni Python personalizzate
- Puoi usare funzioni e pacchetti Python personalizzati. Con
bigframes.pandas
puoi eseguire il deployment di funzioni remote che eseguono funzioni Python scalari su scala BigQuery. Puoi ripristinare queste funzioni in BigQuery come routine SQL e utilizzarle come funzioni SQL.
Carica i dati da una tabella o query BigQuery
Puoi creare un DataFrame da una tabella o query BigQuery nel seguente modo:
Carica i dati da un file CSV
Puoi creare un DataFrame da un file CSV locale o di Cloud Storage nel seguente modo:
Ispeziona e manipola i dati
Puoi utilizzare bigframes.pandas
per eseguire operazioni di ispezione e calcolo dei dati.
Il seguente esempio di codice mostra l'uso di bigframes.pandas
per ispezionare la colonna body_mass_g
, calcolare la media body_mass
e calcolare la media body_mass
per species
:
Utilizza bigframes.ml
L'API bigframes.ml
scikit-learn-like consente di creare
diversi tipi di modelli di machine learning.
Regressione
Il seguente esempio di codice mostra l'uso di bigframes.ml
per:
- Carica i dati da BigQuery
- Pulire e preparare i dati di addestramento
- Creare e applicare un modello di regressione
bigframes.ml.LinearRegression
Clustering
Puoi utilizzare il modulo bigframes.ml.cluster
per creare stimatori per i modelli di clustering.
Il seguente esempio di codice mostra l'uso della classe bigframes.ml.cluster
KMeans
per creare un modello di clustering K-means per la segmentazione dei dati:
Modelli remoti LLM
Puoi utilizzare il modulo bigframes.ml.llm
per creare stimatori per i modelli linguistici di grandi dimensioni (LLM) remoti.
Il seguente esempio di codice mostra l'uso della classe bigframes.ml.llm
PaLM2TextGenerator
per creare un modello del generatore di testo PaLM2 per la generazione del testo:
Prezzi
BigQuery DataFrames è una libreria Python open source. Il codice sorgente può essere visualizzato e scaricato utilizzando GitHub. Puoi installare la libreria da PyPI. La libreria potrebbe essere disponibile anche su altri gestori di pacchetti gestiti dalla community.
BigQuery DataFrames utilizza BigQuery,Cloud Functions, Vertex AI e altri servizi Google Cloud, che prevedono i propri costi. Durante il normale utilizzo, la libreria archivia i dati in tabelle BigQuery intermedie, che per impostazione predefinita hanno una durata di sette giorni.
Passaggi successivi
Per scoprire come eseguire attività di analisi e machine learning utilizzando BigQuery DataFrames in un blocco note di BigQuery, consulta la guida rapida di BigQuery DataFrames.
Per esplorare BigQuery DataFrames, consulta la documentazione di riferimento sulla libreria DataFrames di BigQuery.
Per esplorare il codice sorgente, consulta Codice sorgente BigQuery DataFrames in GitHub.