Einführung in BigQuery DataFrames
BigQuery DataFrames besteht aus einer Reihe von Open-Source-Python-Bibliotheken, mit denen Sie die BigQuery-Datenverarbeitung mithilfe vertrauter Python APIs nutzen können. BigQuery DataFrames bietet einen Python-DataFrame, der von der BigQuery-Engine unterstützt wird. Außerdem werden die pandas- und scikit-learn-APIs implementiert, indem die Verarbeitung durch SQL-Konvertierung an BigQuery übertragen wird. So können Sie mit BigQuery Terabyte an Daten untersuchen und verarbeiten und auch Modelle für maschinelles Lernen (ML) trainieren – alles mit Python APIs.
Das folgende Diagramm beschreibt den Workflow von BigQuery DataFrames:
Vorteile von BigQuery DataFrames
BigQuery DataFrames bietet folgende Funktionen:
- Bietet mehr als 750 Pandas- und Scikit-Learn-APIs, die durch eine transparente SQL-Konvertierung in BigQuery- und BigQuery ML-APIs implementiert werden.
- Die Ausführung von Abfragen wird verzögert, um die Leistung zu verbessern.
- Erweitert Datentransformationen mit benutzerdefinierten Python-Funktionen, um Daten in Google Cloud zu verarbeiten. Diese Funktionen werden automatisch als BigQuery-Remote-Funktionen bereitgestellt.
- Einbindung in Vertex AI, damit Sie Gemini-Modelle für die Textgenerierung verwenden können.
Lizenzierung
BigQuery DataFrames wird unter der Apache-2.0-Lizenz vertrieben.
BigQuery DataFrames enthält auch Code aus den folgenden Drittanbieterpaketen:
Weitere Informationen finden Sie im Verzeichnis third_party/bigframes_vendored
im GitHub-Repository von BigQuery DataFrames.
Kontingente und Limits
- BigQuery-Kontingente gelten für BigQuery DataFrames, einschließlich Hardware-, Software- und Netzwerkkomponenten.
- Es werden einige APIs von pandas und scikit-learn unterstützt. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
- Sie müssen alle automatisch erstellten Cloud Run Functions-Funktionen im Rahmen der Sitzungsbereinigung explizit bereinigen. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
Preise
- BigQuery DataFrames besteht aus einer Reihe von Open-Source-Python-Bibliotheken, die kostenlos heruntergeladen werden können.
- BigQuery DataFrames verwendet BigQuery, Cloud Run-Funktionen, Vertex AI und andere Google Cloud-Dienste, für die eigene Kosten anfallen.
- Bei normaler Nutzung speichert BigQuery DataFrames temporäre Daten wie Zwischenergebnisse in BigQuery-Tabellen. Diese Tabellen bleiben standardmäßig sieben Tage lang erhalten. Die darin gespeicherten Daten werden Ihnen in Rechnung gestellt. Die Tabellen werden im Dataset
_anonymous_
im Google Cloud-Projekt erstellt, das Sie in der Optionbf.options.bigquery.project
angeben.
Nächste Schritte
- BigQuery DataFrames verwenden
- BigQuery DataFrames testen
- Referenz zur BigQuery DataFrames API
- Beispiel-Notebooks für BigQuery DataFrames
- BigQuery DataFrames-Quellcode (GitHub)