BigQuery DataFrames verwenden
Wenn Sie während der Vorschau Unterstützung benötigen, senden Sie eine E-Mail an bigframes-feedback@google.com.
In diesem Dokument wird beschrieben, wie Sie BigQuery DataFrames zum Analysieren und Bearbeiten von Daten in einem BigQuery-Notebook verwenden können.
BigQuery DataFrames ist eine Python-Clientbibliothek, mit der Sie Daten analysieren und Aufgaben in BigQuery-Notebooks für maschinelles Lernen ausführen können.
BigQuery DataFrames besteht aus folgenden Teilen:
bigframes.pandas
implementiert eine pandas-ähnliche API auf BigQuery.bigframes.ml
implementiert zusätzlich zu BigQuery ML eine scikit-learn-ähnliche API.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Die BigQuery API muss aktiviert sein.
Wenn Sie ein neues Projekt erstellt haben, wird die BigQuery API automatisch aktiviert.
Erforderliche Berechtigungen
Wenn Sie BigQuery DataFrames in einem BigQuery-Notebook verwenden möchten, benötigen Sie die folgenden IAM-Rollen (Identity and Access Management):
- BigQuery-Nutzer (
roles/bigquery.user
) - Notebook Runtime-Nutzer (
roles/aiplatform.notebookRuntimeUser
) - Code Creator (
roles/dataform.codeCreator
)
Notebook erstellen
Folgen Sie der Anleitung unter Notebook mit dem BigQuery-Editor erstellen, um ein neues Notebook zu erstellen.
BigQuery DataFrames-Optionen einrichten
Nach der Installation müssen Sie den Standort und das Projekt angeben, in dem Sie BigQuery-DataFrames verwenden möchten.
Sie können den Speicherort und das Projekt in Ihrem Notebook so definieren:
bigframes.pandas
verwenden
Die bigframes.pandas
API bietet eine pandas
-ähnliche API, mit der Sie Daten in BigQuery analysieren und bearbeiten können. Die bigframes.pandas
API ist skalierbar, um die Verarbeitung von Terabyte an BigQuery-Daten zu unterstützen. Sie verwendet die BigQuery-Abfrage-Engine für Berechnungen.
Die bigframes.pandas
API bietet folgende Funktionen:
- Eingabe und Ausgabe
- Sie können auf Daten aus verschiedenen Quellen, einschließlich lokaler CSV-Dateien, Cloud Storage-Dateien,
pandas
DataFrames, BigQuery-Modelle und BigQuery-Funktionen, zugreifen und sie in ein BigQuery DataFrame laden. Sie können BigQuery-Tabellen auch aus BigQuery DataFrames erstellen. - Datenmanipulation
- Für Ihre Entwicklung können Sie Python anstelle von SQL verwenden.
Sie können alle BigQuery-Datenmanipulationen in Python entwickeln, sodass Sie nicht zwischen Sprachen wechseln und SQL-Anweisungen als Textstrings erfassen müssen. Die
bigframes.pandas
API bietet über 250pandas
-Funktionen. - Python-Umgebung und Visualisierungen
- Die
bigframes.pandas
API ist ein Gateway zum vollständigen Python-System an Tools. Die API unterstützt erweiterte statistische Vorgänge und Sie können die von BigQuery DataFrames generierten Aggregationen visualisieren. Sie können auch von einem BigQuery DataFrame zu einempandas
DataFrame mit integrierten Stichprobenvorgängen wechseln. - Benutzerdefinierte Python-Funktionen
- Sie können benutzerdefinierte Python-Funktionen und -Pakete verwenden. Mit
bigframes.pandas
können Sie Remote-Funktionen bereitstellen, die skalare Python-Funktionen in BigQuery-Größe ausführen. Sie können diese Funktionen in BigQuery als SQL-Routinen beibehalten und wie SQL-Funktionen verwenden.
Daten aus einer BigQuery-Tabelle oder -Abfrage laden
Sie können einen DataFrame aus einer BigQuery-Tabelle oder -Abfrage so erstellen:
Daten aus einer CSV-Datei laden
Sie können einen DataFrame aus einer lokalen oder Cloud Storage-CSV-Datei so erstellen:
Daten prüfen und bearbeiten
Sie können bigframes.pandas
für Datenprüfungs- und Berechnungsvorgänge verwenden.
Das folgende Codebeispiel zeigt, wie Sie mit bigframes.pandas
die Spalte body_mass_g
prüfen, den Mittelwert body_mass
berechnen und den Mittelwert body_mass
nach species
berechnen:
bigframes.ml
verwenden
Mit der scikit-learn-ähnlichen bigframes.ml
API können Sie mehrere Typen von Modellen für maschinelles Lernen erstellen.
Regression
Das folgende Codebeispiel zeigt bigframes.ml
, um Folgendes zu tun:
- Daten aus BigQuery laden
- Trainingsdaten bereinigen und vorbereiten
- Regressionsmodell
bigframes.ml.LinearRegression
erstellen und anwenden
Clustering
Mit dem Modul bigframes.ml.cluster
können Sie Estimators für Clustering-Modelle erstellen.
Das folgende Codebeispiel zeigt die Verwendung der Klasse bigframes.ml.cluster
KMeans
zum Erstellen eines K-Means-Clustering-Modells für die Datensegmentierung:
LLM-Remote-Modelle
Mit dem Modul bigframes.ml.llm
können Sie Estimators für Remote-Großsprachmodelle (LLMs) erstellen.
Im folgenden Codebeispiel wird die Klasse bigframes.ml.llm
PaLM2TextGenerator
verwendet, um ein PaLM2-Textgeneratormodell für die Textgenerierung zu erstellen:
Preise
BigQuery DataFrames ist eine Open-Source-Python-Bibliothek. Der Quellcode kann über GitHub aufgerufen und heruntergeladen werden. Sie können die Bibliothek über PyPI installieren. Die Bibliothek ist möglicherweise auch über andere Paketmanager verfügbar, die von der Community verwaltet werden.
BigQuery DataFrames verwendet BigQuery, Cloud Functions, Vertex AI und andere Google Cloud-Dienste, für die eigene Kosten anfallen. Während der normalen Nutzung speichert die Bibliothek Daten in BigQuery-Zwischentabellen, die standardmäßig eine Dauer von sieben Tagen haben.
Nächste Schritte
Unter BigQuery DataFrames – Kurzanleitung erfahren Sie, wie Sie Analyse- und ML-Aufgaben mit BigQuery DataFrames in einem BigQuery-Notebook ausführen.
BigQuery-DataFrames finden Sie in der Referenzdokumentation zur BigQuery DataFrames-Bibliothek.
Informationen zum Quellcode finden Sie im BigQuery DataFrames-Quellcode in GitHub.