Introduzione ai DataFrame di BigQuery

BigQuery DataFrames è un insieme di librerie Python open source che ti consentono di sfruttare l'elaborazione dei dati di BigQuery utilizzando API Python familiari. BigQuery DataFrames implementa le API Pandas e scikit-learn inviando l'elaborazione a BigQuery tramite la conversione SQL. In questo modo, puoi utilizzare BigQuery per esplorare e elaborare terabyte di dati, nonché per addestrare modelli di machine learning (ML), tutto con le API Python.

BigQuery DataFrames offre i seguenti vantaggi:

  • Più di 750 API panda e scikit-learn implementate tramite la conversione SQL trasparente in BigQuery le API di BigQuery ML.
  • Esecuzione differita delle query per migliorare le prestazioni.
  • Estendere le trasformazioni dei dati con funzioni Python definite dall'utente per consentirti di elaborare i dati nel cloud. Queste funzioni vengono eseguite automaticamente come funzioni remote di BigQuery.
  • Integrazione con Vertex AI per consentirti di utilizzare i modelli Gemini per la generazione di testo.

Licenze

BigQuery DataFrames viene distribuito con la licenza Apache-2.0. Contiene inoltre codice derivato dai seguenti pacchetti di terze parti:

Per maggiori dettagli, consulta third_party/bigframes_vendored nel repository GitHub di BigQuery DataFrames.

Quote e limiti

  • Le quote di BigQuery si applicano ai DataFrame di BigQuery, inclusi componenti hardware, software e di rete.
  • È supportato un sottoinsieme di API pandas e scikit-learn. Per ulteriori informazioni, consulta API pandas supportate.
  • Devi ripulire esplicitamente eventuali funzioni Cloud Run create automaticamente come parte della pulizia della sessione. Per ulteriori informazioni, vedi API Pandas supportate.

Prezzi

  • BigQuery DataFrames è un insieme di librerie Python open source disponibili per il download senza costi aggiuntivi.
  • BigQuery DataFrames utilizza BigQuery, le funzioni Cloud Run, Vertex AI e altri servizi Google Cloud, che comportano costi propri.
  • Durante il normale utilizzo, BigQuery DataFrames archivia dati temporanei, ad esempio i risultati intermedi, nelle tabelle BigQuery. Queste tabelle rimangono invariate per sette giorni per impostazione predefinita e ti vengono addebitati i dati memorizzati al loro interno. Le tabelle vengono create nel set di dati _anonymous_ nel progetto specificato Opzione bf.options.bigquery.project.

Passaggi successivi