Introduzione ai DataFrame di BigQuery
BigQuery DataFrames è un insieme di librerie Python open source che ti consentono di sfruttare l'elaborazione dei dati di BigQuery utilizzando API Python familiari. BigQuery DataFrames fornisce un DataFrame Python basato sul motore BigQuery e implementa le API pandas e scikit-learn inviando l'elaborazione a BigQuery tramite la conversione SQL. In questo modo, puoi utilizzare BigQuery per esplorare e elaborare terabyte di dati, nonché per addestrare modelli di machine learning (ML), tutto con le API Python.
Il seguente diagramma descrive il flusso di lavoro di BigQuery DataFrames:
Vantaggi di BigQuery DataFrames
BigQuery DataFrames esegue le seguenti operazioni:
- Offre più di 750 API pandas e scikit-learn implementate tramite la conversione SQL trasparente in BigQuery e nelle API BigQuery ML.
- Rimanda l'esecuzione delle query per migliorare le prestazioni.
- Estende le trasformazioni dei dati con funzioni Python definite dall'utente per consentirti di elaborare i dati in Google Cloud. Queste funzioni vengono eseguite automaticamente come funzioni remote di BigQuery.
- Si integra con Vertex AI per consentirti di utilizzare i modelli Gemini per la generazione di testo.
Licenze
BigQuery DataFrames viene distribuito con la licenza Apache-2.0.
BigQuery DataFrames contiene anche codice derivato dai seguenti pacchetti di terze parti:
Per maggiori dettagli, consulta la directory
third_party/bigframes_vendored
nel repository GitHub di BigQuery DataFrames.
Quote e limiti
- Le quote di BigQuery si applicano ai DataFrame di BigQuery, inclusi componenti hardware, software e di rete.
- È supportato un sottoinsieme di API pandas e scikit-learn. Per ulteriori informazioni, consulta API pandas supportate.
- Devi ripulire esplicitamente eventuali funzioni Cloud Run create automaticamente come parte della pulizia della sessione. Per ulteriori informazioni, consulta API pandas supportate.
Prezzi
- BigQuery DataFrames è un insieme di librerie Python open source disponibili per il download senza costi aggiuntivi.
- BigQuery DataFrames utilizza BigQuery, le funzioni Cloud Run, Vertex AI e altri servizi Google Cloud, che comportano costi propri.
- Durante l'utilizzo normale, BigQuery DataFrames archivia i dati temporanei, come i risultati intermedi, nelle tabelle BigQuery. Queste tabelle rimangono invariate per sette giorni per impostazione predefinita e ti vengono addebitati i dati memorizzati al loro interno. Le tabelle vengono create nel set di dati
_anonymous_
nel progetto Google Cloud specificato nell'opzionebf.options.bigquery.project
.
Passaggi successivi
- Utilizzare BigQuery DataFrames
- Prova BigQuery DataFrames
- Riferimento all'API BigQuery DataFrames
- Notebook di esempio di BigQuery DataFrames
- Codice sorgente di BigQuery DataFrames (GitHub)