Einführung in BigQuery DataFrames
BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, mit denen Sie die BigQuery-Datenverarbeitung mithilfe vertrauter Python APIs nutzen können. BigQuery DataFrames implementiert die pandas und scikit-learn APIS, indem die Verarbeitung über SQL-Konvertierung an BigQuery übertragen wird. So können Sie mithilfe von BigQuery Terabyte an Daten untersuchen und verarbeiten sowie Modelle für maschinelles Lernen (ML) trainieren – alles mit Python APIs.
BigQuery DataFrames bietet folgende Vorteile:
- Mehr als 750 pandas- und scikit-learn-APIs, die durch transparente SQL-Konvertierung in BigQuery und BigQuery ML APIs implementiert wurden.
- Verzögerte Ausführung von Abfragen für verbesserte Leistung.
- Datentransformationen mit benutzerdefinierten Python-Funktionen erweitern, damit Sie Daten in der Cloud verarbeiten können. Diese Funktionen werden automatisch als BigQuery-Remote-Funktionen bereitgestellt.
- Einbindung in Vertex AI, damit Sie Gemini-Modelle für die Textgenerierung verwenden können.
Lizenzierung
BigQuery DataFrames wird mit der Apache-2.0-Lizenz verteilt. Außerdem enthält es Code, der aus den folgenden Drittanbieterpaketen abgeleitet wird:
Weitere Informationen finden Sie im Verzeichnis third_party/bigframes_vendored
im GitHub-Repository von BigQuery DataFrames.
Kontingente und Limits
- Für BigQuery DataFrames gelten BigQuery-Kontingente, einschließlich Hardware, Software und Netzwerkkomponenten.
- Eine Teilmenge der pandas- und scikit-learn-APIs wird unterstützt. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
- Sie müssen alle automatisch erstellten Cloud Functions-Funktionen im Rahmen der Sitzungsbereinigung explizit bereinigen. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
Preise
- BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, die ohne zusätzliche Kosten heruntergeladen werden können.
- BigQuery DataFrames verwendet BigQuery, Cloud Functions, Vertex AI und andere Google Cloud-Dienste, für die eigene Kosten anfallen.
- Während der normalen Nutzung speichert BigQuery DataFrames temporäre Daten, z. B. Zwischenergebnisse, in BigQuery-Tabellen. Diese Tabellen bleiben standardmäßig sieben Tage lang erhalten. Ihnen werden die darin gespeicherten Daten in Rechnung gestellt. Die Tabellen werden im Dataset
_anonymous_
des Projekts erstellt, das Sie in der Optionbf.options.bigquery.project
angeben.
Nächste Schritte
- BigQuery DataFrames verwenden
- BigQuery DataFrames-Kurzanleitung ansehen
- Referenz zur BigQuery DataFrames API
- Beispiel-Notebooks für BigQuery DataFrames
- BigQuery DataFrames-Quellcode (GitHub)