Einführung in BigQuery DataFrames

BigQuery DataFrames besteht aus einer Reihe von Open-Source-Python-Bibliotheken, mit denen Sie die BigQuery-Datenverarbeitung mithilfe vertrauter Python APIs nutzen können. BigQuery DataFrames bietet einen Python-DataFrame, der von der BigQuery-Engine unterstützt wird. Außerdem werden die pandas- und scikit-learn-APIs implementiert, indem die Verarbeitung durch SQL-Konvertierung an BigQuery übertragen wird. So können Sie mit BigQuery Terabyte an Daten untersuchen und verarbeiten und auch Modelle für maschinelles Lernen (ML) trainieren – alles mit Python APIs.

Das folgende Diagramm beschreibt den Workflow von BigQuery DataFrames:

BigQuery DataFrames-Workflow

Vorteile von BigQuery DataFrames

BigQuery DataFrames bietet folgende Funktionen:

  • Bietet mehr als 750 Pandas- und Scikit-Learn-APIs, die durch eine transparente SQL-Konvertierung in BigQuery- und BigQuery ML-APIs implementiert werden.
  • Die Ausführung von Abfragen wird verzögert, um die Leistung zu verbessern.
  • Erweitert Datentransformationen mit benutzerdefinierten Python-Funktionen, um Daten in Google Cloud zu verarbeiten. Diese Funktionen werden automatisch als BigQuery-Remote-Funktionen bereitgestellt.
  • Einbindung in Vertex AI, damit Sie Gemini-Modelle für die Textgenerierung verwenden können.

Lizenzierung

BigQuery DataFrames wird unter der Apache-2.0-Lizenz vertrieben.

BigQuery DataFrames enthält auch Code aus den folgenden Drittanbieterpaketen:

Weitere Informationen finden Sie im Verzeichnis third_party/bigframes_vendored im GitHub-Repository von BigQuery DataFrames.

Kontingente und Limits

  • BigQuery-Kontingente gelten für BigQuery DataFrames, einschließlich Hardware-, Software- und Netzwerkkomponenten.
  • Es werden einige APIs von pandas und scikit-learn unterstützt. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
  • Sie müssen alle automatisch erstellten Cloud Run Functions-Funktionen im Rahmen der Sitzungsbereinigung explizit bereinigen. Weitere Informationen finden Sie unter Unterstützte pandas APIs.

Preise

  • BigQuery DataFrames besteht aus einer Reihe von Open-Source-Python-Bibliotheken, die kostenlos heruntergeladen werden können.
  • BigQuery DataFrames verwendet BigQuery, Cloud Run-Funktionen, Vertex AI und andere Google Cloud-Dienste, für die eigene Kosten anfallen.
  • Bei normaler Nutzung speichert BigQuery DataFrames temporäre Daten wie Zwischenergebnisse in BigQuery-Tabellen. Diese Tabellen bleiben standardmäßig sieben Tage lang erhalten. Die darin gespeicherten Daten werden Ihnen in Rechnung gestellt. Die Tabellen werden im Dataset _anonymous_ im Google Cloud-Projekt erstellt, das Sie in der Option bf.options.bigquery.project angeben.

Nächste Schritte