Introduzione a BigQuery DataFrames

BigQuery DataFrames è un insieme di librerie Python open source che consentono puoi sfruttare l'elaborazione dei dati di BigQuery utilizzando le API Python. BigQuery DataFrames implementa i pandas API scikit-learn mediante il push dell'elaborazione in BigQuery mediante la conversione SQL. Ciò ti consente di utilizzare BigQuery per esplorare ed elaborare terabyte di dati, nonché addestrare modelli di machine learning (ML), il tutto con le API Python.

BigQuery DataFrames offre i seguenti vantaggi:

  • Più di 750 API panda e scikit-learn implementate tramite la conversione SQL trasparente in BigQuery le API di BigQuery ML.
  • Esecuzione differita delle query per migliorare le prestazioni.
  • Estendere le trasformazioni dei dati con funzioni Python definite dall'utente Elabora i dati nel cloud. Queste funzioni sono con deployment automatico funzioni remote.
  • Integrazione con Vertex AI per consentire l'utilizzo dei modelli Gemini per il testo di classificazione.

Licenze

BigQuery DataFrames è distribuito con Licenza Apache-2.0. Contiene inoltre codice derivato dai seguenti pacchetti di terze parti:

Per maggiori dettagli, consulta third_party/bigframes_vendored nel repository GitHub di BigQuery DataFrames.

Quote e limiti

  • Le quote di BigQuery si applicano DataFrame BigQuery, inclusi hardware, software e reti componenti.
  • È supportato un sottoinsieme di API pandas e scikit-learn. Per maggiori informazioni le informazioni, vedi API Pandas supportate.
  • Devi eseguire esplicitamente la pulizia di eventuali funzioni Cloud Functions create automaticamente come parte della pulizia della sessione. Per ulteriori informazioni, vedi API Pandas supportate.

Prezzi

  • BigQuery DataFrames è un insieme di librerie Python open source disponibile per il download senza costi aggiuntivi.
  • BigQuery DataFrames utilizza BigQuery, Cloud Functions, Vertex AI e altre per i servizi Google Cloud, a loro carico.
  • Durante il normale utilizzo, BigQuery DataFrames archivia dati temporanei, ad esempio i risultati intermedi, nelle tabelle BigQuery. Questi vengono mantenuti per sette giorni per impostazione predefinita e ti vengono addebitati i costi archiviati al loro interno. Le tabelle vengono create nel set di dati _anonymous_ nel progetto specificato Opzione bf.options.bigquery.project.

Passaggi successivi