Einführung in BigQuery DataFrames

BigQuery DataFrames besteht aus einer Reihe von Open-Source-Python-Bibliotheken, mit denen Sie die BigQuery-Datenverarbeitung mithilfe vertrauter Python APIs nutzen können. BigQuery DataFrames bietet einen Pythonic DataFrame, der von der BigQuery-Engine unterstützt wird. Die pandas- und scikit-learn-APIs werden implementiert, indem die Verarbeitung durch SQL-Konvertierung an BigQuery übertragen wird. So können Sie BigQuery verwenden, um Terabyte an Daten zu untersuchen und zu verarbeiten und um Modelle für maschinelles Lernen (ML) zu trainieren – alles mit Python APIs.

Das folgende Diagramm beschreibt den Workflow von BigQuery DataFrames:

BigQuery DataFrames-Workflow

Vorteile von BigQuery DataFrames

BigQuery DataFrames bietet folgende Funktionen:

  • Mehr als 750 Pandas- und Scikit-Learn-APIs, die durch eine transparente SQL-Konvertierung in BigQuery- und BigQuery ML-APIs implementiert werden.
  • Verzögert die Ausführung von Abfragen für verbesserte Leistung.
  • Erweitert Datentransformationen mit benutzerdefinierten Python-Funktionen, damit Sie Daten in Google Cloudverarbeiten können. Diese Funktionen werden automatisch als BigQuery-Remote-Funktionen bereitgestellt.
  • Einbindung in Vertex AI, damit Sie Gemini-Modelle für die Textgenerierung verwenden können.

Lizenzierung

BigQuery DataFrames wird mit der Apache-2.0-Lizenz verteilt.

BigQuery DataFrames enthält auch Code, der aus den folgenden Drittanbieterpaketen abgeleitet wurde:

Weitere Informationen finden Sie im Verzeichnis third_party/bigframes_vendored im GitHub-Repository für BigQuery DataFrames.

Kontingente und Limits

  • Für BigQuery DataFrames gelten BigQuery-Kontingente, einschließlich Hardware-, Software- und Netzwerkkomponenten.
  • Eine Teilmenge der pandas- und scikit-learn-APIs wird unterstützt. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
  • Sie müssen alle automatisch erstellten Cloud Run Functions-Funktionen im Rahmen der Sitzungsbereinigung explizit bereinigen. Weitere Informationen finden Sie unter Unterstützte pandas APIs.

Preise

  • BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, die kostenlos heruntergeladen werden können.
  • BigQuery DataFrames verwendet BigQuery, Cloud Run Functions, Vertex AI und andereGoogle Cloud -Dienste, für die eigene Kosten anfallen.
  • Bei der normalen Verwendung werden temporäre Daten wie Zwischenergebnisse in BigQuery-Tabellen gespeichert. Diese Tabellen werden standardmäßig sieben Tage lang beibehalten. Die darin gespeicherten Daten werden Ihnen in Rechnung gestellt. Die Tabellen werden im Dataset _anonymous_ im Projekt Google Cloud erstellt, das Sie in der bf.options.bigquery.project-Option angeben.

Nächste Schritte