Einführung in BigQuery DataFrames
BigQuery DataFrames besteht aus einer Reihe von Open-Source-Python-Bibliotheken, mit denen Sie die BigQuery-Datenverarbeitung mithilfe vertrauter Python APIs nutzen können. BigQuery DataFrames bietet einen Pythonic DataFrame, der von der BigQuery-Engine unterstützt wird. Die pandas- und scikit-learn-APIs werden implementiert, indem die Verarbeitung durch SQL-Konvertierung an BigQuery übertragen wird. So können Sie BigQuery verwenden, um Terabyte an Daten zu untersuchen und zu verarbeiten und um Modelle für maschinelles Lernen (ML) zu trainieren – alles mit Python APIs.
Das folgende Diagramm beschreibt den Workflow von BigQuery DataFrames:
Vorteile von BigQuery DataFrames
BigQuery DataFrames bietet folgende Funktionen:
- Mehr als 750 Pandas- und Scikit-Learn-APIs, die durch eine transparente SQL-Konvertierung in BigQuery- und BigQuery ML-APIs implementiert werden.
- Verzögert die Ausführung von Abfragen für verbesserte Leistung.
- Erweitert Datentransformationen mit benutzerdefinierten Python-Funktionen, damit Sie Daten in Google Cloudverarbeiten können. Diese Funktionen werden automatisch als BigQuery-Remote-Funktionen bereitgestellt.
- Einbindung in Vertex AI, damit Sie Gemini-Modelle für die Textgenerierung verwenden können.
Lizenzierung
BigQuery DataFrames wird mit der Apache-2.0-Lizenz verteilt.
BigQuery DataFrames enthält auch Code, der aus den folgenden Drittanbieterpaketen abgeleitet wurde:
Weitere Informationen finden Sie im Verzeichnis third_party/bigframes_vendored
im GitHub-Repository für BigQuery DataFrames.
Kontingente und Limits
- Für BigQuery DataFrames gelten BigQuery-Kontingente, einschließlich Hardware-, Software- und Netzwerkkomponenten.
- Eine Teilmenge der pandas- und scikit-learn-APIs wird unterstützt. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
- Sie müssen alle automatisch erstellten Cloud Run Functions-Funktionen im Rahmen der Sitzungsbereinigung explizit bereinigen. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
Preise
- BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, die kostenlos heruntergeladen werden können.
- BigQuery DataFrames verwendet BigQuery, Cloud Run Functions, Vertex AI und andereGoogle Cloud -Dienste, für die eigene Kosten anfallen.
- Bei der normalen Verwendung werden temporäre Daten wie Zwischenergebnisse in BigQuery-Tabellen gespeichert. Diese Tabellen werden standardmäßig sieben Tage lang beibehalten. Die darin gespeicherten Daten werden Ihnen in Rechnung gestellt. Die Tabellen werden im Dataset
_anonymous_
im Projekt Google Cloud erstellt, das Sie in derbf.options.bigquery.project
-Option angeben.
Nächste Schritte
- BigQuery DataFrames-Kurzanleitung
- BigQuery DataFrames verwenden
- Diagramme mit BigQuery DataFrames visualisieren
- Informationen zur Verwendung des
dbt-bigquery
-Adapters