Einführung in BigQuery DataFrames

BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, mit denen Sie die BigQuery-Datenverarbeitung mithilfe vertrauter Python APIs nutzen können. BigQuery DataFrames implementiert die pandas und scikit-learn APIS, indem die Verarbeitung über SQL-Konvertierung nach BigQuery verschoben wird. Sie können BigQuery verwenden, um Terabyte an Daten zu untersuchen und zu verarbeiten sowie Modelle für maschinelles Lernen (ML) zu trainieren – alles mit Python APIs.

BigQuery DataFrames bietet folgende Vorteile:

  • Mehr als 750 Pandas und scikit-learn APIs, die durch eine transparente SQL-Konvertierung in BigQuery- und BigQuery ML APIs implementiert wurden.
  • Verzögerte Ausführung von Abfragen, um die Leistung zu verbessern.
  • Datentransformationen mit benutzerdefinierten Python-Funktionen erweitern, damit Sie Daten in der Cloud verarbeiten können. Diese Funktionen werden automatisch als Remote-Funktionen von BigQuery bereitgestellt.
  • Einbindung in Vertex AI, damit Sie Gemini-Modelle für die Textgenerierung verwenden können.

Lizenzierung

BigQuery DataFrames wird mit der Apache-2.0-Lizenz bereitgestellt. Sie enthält auch Code, der von den folgenden Drittanbieterpaketen abgeleitet ist:

Weitere Informationen finden Sie im Verzeichnis third_party/bigframes_vendored im GitHub-Repository von BigQuery DataFrames.

Kontingente und Limits

  • BigQuery-Kontingente gelten für BigQuery DataFrames, einschließlich Hardware, Software und Netzwerkkomponenten.
  • Eine Teilmenge der pandas- und scikit-learn-APIs wird unterstützt. Weitere Informationen finden Sie unter Unterstützte pandas APIs.
  • Sie müssen alle automatisch erstellten Cloud Functions-Funktionen im Rahmen der Sitzungsbereinigung explizit bereinigen. Weitere Informationen finden Sie unter Unterstützte pandas-APIs.

Preise

  • BigQuery DataFrames ist eine Reihe von Open-Source-Python-Bibliotheken, die ohne zusätzliche Kosten heruntergeladen werden können.
  • BigQuery DataFrames verwendet BigQuery, Cloud Functions, Vertex AI und andere Google Cloud-Dienste, für die eigene Kosten anfallen.
  • Während der regulären Verwendung speichert BigQuery DataFrames temporäre Daten wie Zwischenergebnisse in BigQuery-Tabellen. Diese Tabellen werden standardmäßig sieben Tage lang aufbewahrt, und Ihnen werden die darin gespeicherten Daten in Rechnung gestellt. Die Tabellen werden im Dataset _anonymous_ in dem Projekt erstellt, das Sie in der Option bf.options.bigquery.project angeben.

Nächste Schritte