Einführung in BigQuery DataFrames

BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, mit denen Sie die BigQuery-Datenverarbeitung mithilfe vertrauter Python APIs nutzen können. BigQuery DataFrames implementiert die pandas und scikit-learn APIS, indem die Verarbeitung über SQL-Konvertierung an BigQuery übertragen wird. So können Sie mithilfe von BigQuery Terabyte an Daten untersuchen und verarbeiten sowie Modelle für maschinelles Lernen (ML) trainieren – alles mit Python APIs.

BigQuery DataFrames bietet folgende Vorteile:

  • Mehr als 750 pandas- und scikit-learn-APIs, die durch transparente SQL-Konvertierung in BigQuery und BigQuery ML APIs implementiert wurden.
  • Verzögerte Ausführung von Abfragen für verbesserte Leistung.
  • Datentransformationen mit benutzerdefinierten Python-Funktionen erweitern, damit Sie Daten in der Cloud verarbeiten können. Diese Funktionen werden automatisch als BigQuery-Remote-Funktionen bereitgestellt.
  • Einbindung in Vertex AI, damit Sie Gemini-Modelle für die Textgenerierung verwenden können.

Lizenzierung

BigQuery DataFrames wird mit der Apache-2.0-Lizenz verteilt. Außerdem enthält es Code, der aus den folgenden Drittanbieterpaketen abgeleitet wird:

Weitere Informationen finden Sie im Verzeichnis third_party/bigframes_vendored im GitHub-Repository von BigQuery DataFrames.

Kontingente und Limits

  • Für BigQuery DataFrames gelten BigQuery-Kontingente, einschließlich Hardware, Software und Netzwerkkomponenten.
  • Eine Teilmenge der pandas- und scikit-learn-APIs wird unterstützt. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
  • Sie müssen alle automatisch erstellten Cloud Functions-Funktionen im Rahmen der Sitzungsbereinigung explizit bereinigen. Weitere Informationen finden Sie unter Unterstützte pandas APIs.

Preise

  • BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, die ohne zusätzliche Kosten heruntergeladen werden können.
  • BigQuery DataFrames verwendet BigQuery, Cloud Functions, Vertex AI und andere Google Cloud-Dienste, für die eigene Kosten anfallen.
  • Während der normalen Nutzung speichert BigQuery DataFrames temporäre Daten, z. B. Zwischenergebnisse, in BigQuery-Tabellen. Diese Tabellen bleiben standardmäßig sieben Tage lang erhalten. Ihnen werden die darin gespeicherten Daten in Rechnung gestellt. Die Tabellen werden im Dataset _anonymous_ des Projekts erstellt, das Sie in der Option bf.options.bigquery.project angeben.

Nächste Schritte