BigQuery DataFrames verwenden
BigQuery DataFrames bietet eine Pythonic DataFrame und eine API für maschinelles Lernen (ML), die von der BigQuery-Engine unterstützt wird. BigQuery DataFrames ist ein Open-Source-Paket.
Sie können pip install --upgrade bigframes
ausführen, um die neueste Version zu installieren.
BigQuery DataFrames bietet zwei Bibliotheken:
bigframes.pandas
bietet eine mit Pandas kompatible API für Analysen.bigframes.ml
bietet eine scikit-learn-ähnliche API für maschinelles Lernen (ML).
Erforderliche Berechtigungen
- Um BigQuery DataFrames verwenden zu können, benötigen Sie die Rollen BigQuery-Jobnutzer und BigQuery-Lesesitzungsnutzer.
- Wenn Sie die Endnutzerauthentifizierung in einer interaktiven Umgebung wie einem Notebook, der Python-REPL oder der Befehlszeile ausführen, fordert BigQuery DataFrames bei Bedarf zur Authentifizierung auf. Andernfalls lesen Sie in diesem Artikel zum Einrichten von Standardanmeldedaten für Anwendungen für verschiedene Umgebungen.
- Für die Verwendung von Remote-Funktionen und ML-Remote-Modellen gelten zusätzliche IAM-Anforderungen (Identity and Access Management).
-
Zur Verwendung von BigQuery DataFrames in einem BigQuery-Notebook benötigen Sie die folgenden IAM-Rollen:
Optionen
Nach der Installation müssen Sie den Standort und das Projekt angeben, in dem Sie BigQuery-DataFrames verwenden möchten. Sie können den Speicherort und das Projekt in Ihrem Notebook so definieren:Wenn bf.options.bigquery.project
nicht festgelegt ist, wird die Umgebungsvariable $GOOGLE_CLOUD_PROJECT
verwendet, die in der Notebooklaufzeit für die Bereitstellung von BigQuery Studio und Vertex AI-Notebooks festgelegt wird.
Ort der Datenverarbeitung
BigQuery DataFrames ist auf Skalierbarkeit ausgelegt, was durch die Speicherung von Daten und die Verarbeitung im BigQuery-Dienst ermöglicht wird. Sie können jedoch Daten in den Speicher Ihres Client-Rechners übertragen, indem Sie in einem DataFrame- oder Series-Objekt .to_pandas()
aufrufen.
In diesem Fall gilt die Speicherbeschränkung Ihres Clientcomputers.
Sitzungsstandort
BigQuery DataFrames verwendet ein lokales Sitzungsobjekt, um Metadaten intern zu verwalten. Diese
Sitzung ist an einen Standort gebunden.
BigQuery DataFrames verwendet den multiregionalen Standort US
als Standard,
aber Sie
können session_options.location
verwenden, um einen anderen Standort festzulegen. Jede Abfrage in einer Sitzung wird an dem Standort ausgeführt, an dem die Sitzung erstellt wurde.
BigQuery-DataFrames
fügt bf.options.bigquery.location
automatisch den Speicherort der Tabelle ein, wenn der
Nutzer mit read_gbq/read_gbq_table/read_gbq_query()
beginnt und entweder
oder in einer SQL-Anweisung eine Tabelle angibt.
Wenn Sie den Standort der erstellten DataFrame- oder Serienobjekte zurücksetzen möchten, können Sie die Sitzung durch Ausführen von bigframes.pandas.close_session()
schließen.
Danach können Sie bigframes.pandas.options.bigquery.location
wiederverwenden, um
einen anderen Ort angeben.
read_gbq()
erfordert die Angabe eines Standorts, wenn sich das Dataset, das sie abfragen,
nicht am multiregionalen Standort US
befindet. Wenn Sie versuchen, eine Tabelle aus einem anderen Standort zu lesen,
erhalten Sie die Ausnahme NotFound
.
Datentypen
BigQuery DataFrames unterstützt die folgenden dtypes von Numpy und Pandas:
BigQuery | BigQuery DataFrames und Pandas |
---|---|
ARRAY |
pandas.ArrowDtype(pa.list_()) |
BOOL |
pandas.BooleanDtype() |
DATE |
pandas.ArrowDtype(pa.date32()) |
DATETIME |
pandas.ArrowDtype(pa.timestamp("us")) |
FLOAT64 |
pandas.Float64Dtype() |
GEOGRAPHY |
Unterstützt von " |
INT64 |
pandas.Int64Dtype() |
STRING |
pandas.StringDtype(storage="pyarrow") |
STRUCT |
pandas.ArrowDtype(pa.struct()) |
TIME |
pandas.ArrowDtype(pa.time64("us")) |
TIMESTAMP |
pandas.ArrowDtype(pa.timestamp("us", tz="UTC")) |
Die folgenden BigQuery-Datentypen werden von BigQuery DataFrames nicht unterstützt:
NUMERIC
BIGNUMERIC
INTERVAL
RANGE
JSON
Alle anderen BigQuery-Datentypen werden als Objekttyp angezeigt.
Bibliothek bigframes.pandas
verwenden
Die bigframes.pandas
-Bibliothek bietet eine pandas
-ähnliche API, mit der Sie Daten in BigQuery analysieren und bearbeiten können. Die bigframes.pandas
API ist skalierbar, um die Verarbeitung von Terabyte an BigQuery-Daten zu unterstützen. Sie verwendet die BigQuery-Abfrage-Engine für Berechnungen.
Die bigframes.pandas
API bietet folgende Funktionen:
Eingabe und Ausgabe
Sie können auf Daten aus verschiedenen Quellen, einschließlich lokaler CSV-Dateien, Cloud Storage-Dateien, pandas
-DataFrames, BigQuery-Modelle und BigQuery-Funktionen, zugreifen und sie in ein BigQuery DataFrames-DataFrame laden. Sie können BigQuery-Tabellen auch aus BigQuery DataFrames erstellen.
Datenmanipulation
Für Ihre Entwicklung können Sie Python anstelle von SQL verwenden. Sie können alle BigQuery-Datenmanipulationen in Python entwickeln, sodass Sie nicht zwischen Sprachen wechseln und SQL-Anweisungen als Textstrings erfassen müssen. Die bigframes.pandas
API bietet über 750 pandas
-Funktionen.
Python-Umgebung und Visualisierungen
Die bigframes.pandas
API ist ein Gateway zum vollständigen Python-System an Tools. Die API unterstützt erweiterte statistische Vorgänge und Sie können die von BigQuery DataFrames generierten Aggregationen visualisieren. Sie können auch von einem BigQuery DataFrames-DataFrame zu einem pandas
-DataFrame mit integrierten Stichprobenvorgängen wechseln.
Benutzerdefinierte Python-Funktionen
Mit BigQuery DataFrames können Sie Ihre benutzerdefinierten skalaren Funktionen in BigQuery-Remote-Funktionen umwandeln. Wenn Sie eine Remote-Funktion in BigQuery DataFrames erstellen, geschieht Folgendes:
Eine BigQuery-Verbindung. Standardmäßig wird eine Verbindung des Namens
bigframes-default-connection
verwendet. Sie können eine vorkonfigurierte BigQuery-Verbindung verwenden, wenn Sie möchten. In diesem Fall wird die Verbindungserstellung übersprungen.Dem Dienstkonto für die Standardverbindung wird die IAM-Rolle „Cloud Run Invoker” (
roles/run.invoker
) zugewiesen.Eine BigQuery-Remote-Funktion, die die Cloud Functions-Funktion (1) über die BigQuery-Verbindung verwendet (2).
Ein Beispiel finden Sie unter Remote-Funktion erstellen.
BigQuery-Verbindungen werden am selben Standort wie die BigQuery DataFrames-Sitzung erstellt. Dabei wird der Name verwendet, den Sie in der Definition der benutzerdefinierten Funktion angeben. So rufen Sie Verbindungen auf und verwalten sie:
Wählen Sie das Projekt aus, in dem Sie die Remote-Funktion erstellt haben.
Maximieren Sie im Explorer-Bereich dieses Projekt und dann "Externe Verbindungen".
BigQuery-Remote-Funktionen werden in dem von Ihnen angegebenen Dataset erstellt oder in einem speziellen verborgenen Dataset im Code als anonymes Dataset bezeichnet. So rufen Sie Remote-Funktionen auf, die in einem vom Nutzer bereitgestellten Dataset erstellt wurden, und verwalten sie:
Wählen Sie das Projekt aus, in dem Sie die Remote-Funktion erstellt haben.
Maximieren Sie im Explorer-Bereich das Projekt und dann das Dataset, in dem Sie die Remote-Funktion erstellt haben, und maximieren Sie dann „Abläufe“.
Verwenden Sie zum Anzeigen und Verwalten von Cloud Functions-Funktionen die Seite Funktionen und wählen Sie mithilfe der Projektauswahl das Projekt aus, in dem Sie die Funktion erstellt haben. Um die Identifizierung zu erleichtern, ist den Namen der Funktionen, die von BigQuery DataFrames erstellt wurden, das Präfix bigframes
vorangestellt.
Voraussetzungen
Damit Sie die Remote-Funktionen von BigQuery DataFrames verwenden können, müssen Sie die folgenden APIs aktivieren:
BigQuery API (
bigquery.googleapis.com
)Die BigQuery Connection API (
bigqueryconnection.googleapis.com
)Cloud Functions API (
cloudfunctions.googleapis.com
)Die Cloud Run Admin API (
run.googleapis.com
)Artifact Registry API (
artifactregistry.googleapis.com
)Die Cloud Build API (
cloudbuild.googleapis.com
)Die Compute Engine API (
compute.googleapis.com
)Cloud Resource Manager API (
cloudresourcemanager.googleapis.com
)Sie können diese Anforderung vermeiden, indem Sie die Option
bigframes.pandas.options.bigquery.skip_bq_connection_check
aufTrue
setzen. In diesem Fall wird die Verbindung (entweder standardmäßig oder vorkonfiguriert) unverändert verwendet, ohne dass die Existenz der Verbindung oder Überprüfung ihrer Berechtigungen geprüft wird.
Wenn Sie die Remote-Funktionen von BigQuery DataFrames verwenden möchten, benötigen Sie im Projekt die folgenden IAM-Rollen:
BigQuery-Dateneditor (
roles/bigquery.dataEditor
)BigQuery Connection Admin (
roles/bigquery.connectionAdmin
)Cloud Functions Developer (
roles/cloudfunctions.developer
)Service Account User (
roles/iam.serviceAccountUser
)Storage-Objekt-Betrachter (
roles/storage.objectViewer
)Projekt-IAM-Administrator (
roles/resourcemanager.projectIamAdmin
), wenn die BigQuery-Standardverbindung verwendet wird, oder Browser (Rollen/Browser), wenn eine vorkonfigurierte Verbindung verwendet wird. Diese Anforderung kann vermieden werden, indem die Optionbigframes.pandas.options.bigquery.skip_bq_connection_check
aufTrue
gesetzt wird. In diesem Fall wird die Verbindung (Standard oder vorkonfiguriert) unverändert verwendet, ohne dass geprüft wird, ob sie besteht oder eine Berechtigung vorhanden ist. Wenn Sie die vorkonfigurierte Verbindung verwenden und die Verbindungsprüfung überspringen, achten Sie darauf, dass die Verbindung am richtigen Standort erstellt wird und das zugehörige Dienstkonto die Rolle "Cloud Run-Aufrufer" (roles/run.invoker
) für das Projekt hat.
Beschränkungen
Es dauert etwa 90 Sekunden, bis Remote-Funktionen nach ihrer Erstellung verfügbar sind.
Einfache Änderungen im Notebook, wie das Einfügen einer neuen Zelle oder das Umbenennen einer Variablen, kann dazu führen, dass die Remote-Funktion neu erstellt wird, auch wenn diese Änderungen keinen Bezug auf den Remote-Funktionscode haben.
BigQuery DataFrames unterscheidet keine personenbezogenen Daten, die Sie in den Code der Remote-Funktion aufnehmen. Der Remote-Funktionscode ist als undurchsichtiges Feld serialisiert, um ihn als Cloud Functions-Funktion bereitzustellen.
Cloud Functions-Funktionen (2. Generation), BigQuery-Verbindungen und BigQuery-Remote- von BigQuery DataFrames erstellte Funktionen bleiben in Google Cloud erhalten. Wenn Sie diese Ressourcen nicht behalten möchten, müssen Sie sie separat mit einer entsprechenden Cloud Functions- oder BigQuery-Oberfläche löschen.
Ein Projekt kann bis zu 1.000 Cloud Functions-Funktionen (2. Generation) gleichzeitig haben. Weitere Informationen finden Sie unter Cloud Functions-Kontingente für alle Limits.
Beispiele für bigframes.pandas
Die folgenden Beispiele zeigen gängige Methoden zur Verwendung von bigframes.pandas
.
Daten aus einer BigQuery-Tabelle oder -Abfrage laden
Sie können einen DataFrame aus einer BigQuery-Tabelle oder -Abfrage so erstellen:
Daten aus einer CSV-Datei laden
Sie können einen DataFrame aus einer lokalen oder Cloud Storage-CSV-Datei so erstellen:
Daten prüfen und bearbeiten
Sie können bigframes.pandas
für Datenprüfungs- und Berechnungsvorgänge verwenden.
Das folgende Codebeispiel zeigt, wie Sie mit bigframes.pandas
die Spalte body_mass_g
prüfen, den Mittelwert
body_mass
berechnen und den Mittelwert body_mass
nach
species
berechnen:
Bibliothek bigframes.ml
verwenden
Mit den ML-Funktionen in BigQuery DataFrames können Sie Daten vorverarbeiten und Modelle mit diesen Daten trainieren. Diese Aktionen lassen sich auch für die Erstellung von Datenpipelines aneinanderketten.
ML-Speicherorte
bigframes.ml
unterstützt dieselben Standorte wie BigQuery ML.
BigQuery ML-Modellvorhersagen und andere ML-Funktionen werden in allen BigQuery-Regionen unterstützt. Die Unterstützung für das Modelltraining variiert je nach Region. Weitere Informationen finden Sie unter BigQuery ML-Standorte.
Daten vorverarbeiten
Erstellen Sie Transformer, um Daten für die Verwendung in Estimators (Modellen) mithilfe derModul bigframes.ml.preprocessing und dieModul bigframes.ml.compose vorzubereiten. BigQuery DataFrames bietet die folgenden Transformationen:
Verwenden Sie die KBinsDiscretizer-Klasse im Modul
bigframes.ml.preprocessing
, um kontinuierliche Daten in Intervalle zu bündeln.Verwenden Sie die LabelEncoder-Klasse im Modul
bigframes.ml.preprocessing
, um die Ziellabels als Ganzzahlwerte zu normalisieren.Verwenden Sie die MaxAbsScaler-Klasse im Modul
bigframes.ml.preprocessing
, um jedes Feature um seinen maximalen absoluten Wert auf den Bereich[-1, 1]
zu skalieren.Verwenden Sie die MinMaxScaler-Klasse im Modul
bigframes.ml.preprocessing
, um Features zu standardisieren, indem Sie jedes Feature auf den Bereich[0, 1]
skalieren.Verwenden Sie die StandardScaler-Klasse im
bigframes.ml.preprocessing
-Modul, um Merkmale zu standardisieren. Dazu entfernen Sie den Mittelwert und die Skalierung auf die Einheitsvarianz.Verwenden Sie die OneHotEncoder-Klasse im Modul
bigframes.ml.preprocessing
, um kategoriale Werte in ein numerisches Format umzuwandeln.Verwenden Sie die ColumnTransformer-Klasse im Modul
bigframes.ml.compose
, um Transformer auf DataFrames-Spalten anzuwenden.
Modelle trainieren
Erstellen Sie Estimatoren zum Trainieren von Modellen in BigQuery DataFrames.
Clustering-Modelle
Erstellen Sie Estimatoren für Clustering-Modelle mit dem bigframes.ml.cluster-Modul.
- Verwenden Sie die KMeans-Klasse, um K-Means-Clustering-Modelle zu erstellen. Verwenden Sie diese Modelle für die Datensegmentierung. Beispiel: Identifizierung von Kundensegmenten. K-Means ist ein unüberwachtes Lernen, sodass das Modelltraining keine Labels oder aufgeteilte Daten für das Training oder die Evaluation benötigt.
Mit dem Modul bigframes.ml.cluster
können Sie Estimators für Clustering-Modelle erstellen.
Das folgende Codebeispiel zeigt die Verwendung der Klasse bigframes.ml.cluster KMeans
zum Erstellen eines K-Means-Clustering-Modells für die Datensegmentierung:
Zerlegungsmodelle
Erstellen Sie Estimatoren für Zerlegungsmodelle mit dem bigframes.ml.decomposition-Modul.
- Verwenden Sie die PCA-Klasse, um Modelle für die Hauptkomponentenanalyse (Principal Component Analysis, PCA) zu erstellen. Verwenden Sie diese Modelle zur Berechnung der Hauptkomponenten und zur Durchführung einer Änderung der Grundlage der Daten. Dadurch wird die Dimensionalität reduziert, indem jeder Datenpunkt auf die ersten Hauptkomponenten projiziert wird, um niedrigdimensionale Daten zu erhalten und gleichzeitig einen möglichst großen Teil der Datenabweichung beizubehalten.
Ensemble-Modelle
Erstellen Sie Estimatoren für Ensemble-Modelle mit dem bigframes.ml.ensemble-Modul.
Verwenden Sie die RandomForestClassifier-Klasse, um Random Forest-Klassifikatormodelle zu erstellen. Verwenden Sie diese Modelle, um mehrere Entscheidungsmethoden für Lernmethoden zur Klassifizierung zu erstellen.
Verwenden Sie die RandomForestRegressor-Klasse, um Random Forest-Regressionsmodelle zu erstellen. Verwenden Sie diese Modelle, um mehrere Entscheidungsbäume für Lernmethoden für die Regression zu erstellen.
Verwenden Sie die XGBClassifier-Klasse, um Gradienten-Boosted Tree-Klassifikatormodelle zu erstellen. Verwenden Sie diese Modelle, um mehrere Entscheidungsmethoden für Lernmethoden zur Klassifizierung additiv zu erstellen.
Verwenden Sie die XGBRegressor-Klasse, um Gradienten-Boosting-Baum-Regressionsmodelle zu erstellen. Verwenden Sie diese Modelle, um mehrere Entscheidungsmethoden für Lernmethoden für die Regression additiv zu erstellen.
Prognosemodelle
Erstellen Sie Estimatoren für Prognosemodelle mit dem bigframes.ml.forecasting-Modul.
- Verwenden Sie die ARIMAPlus-Klasse, um Zeitreihenprognosemodelle zu erstellen.
Importierte Modelle
Erstellen Sie Estimatoren für importierte Modelle mit dem bigframes.ml.imported-Modul.
Verwenden Sie die ONNXModel-Klasse, um ONNX-Modelle (Open Neural Network Exchange) zu importieren.
Verwenden Sie die TensorFlowModel-Klasse, um TensorFlow-Modelle zu importieren.
Verwenden Sie die XGBoostModel-Klasse, um XGBoostModel-Modelle zu importieren.
Lineare Modelle
Erstellen Sie Estimatoren für lineare Modelle mit dem bigframes.ml.linear_model-Modul.
Verwenden Sie die LinearRegression-Klasse, um lineare Regressionsmodelle zu erstellen. Verwenden Sie diese Modelle für Prognosen. Beispiel: Umsatzprognosen für einen Artikel an einem bestimmten Tag.
Verwenden Sie die LogisticRegression-Klasse, um logistische Regressionsmodelle zu erstellen. Verwenden Sie diese Modelle für die Klassifizierung von zwei oder mehr möglichen Werten, z. B. ob eine Eingabe
low-value
,medium-value
oderhigh-value
ist.
Das folgende Codebeispiel zeigt bigframes.ml
, um Folgendes zu tun:
- Daten aus BigQuery laden
- Trainingsdaten bereinigen und vorbereiten
- Regressionsmodell
bigframes.ml.LinearRegression
erstellen und anwenden
Large Language Models
Erstellen Sie Estimatoren für LLMs mithilfe des bigframes.ml.llm-Moduls.
Verwenden Sie die GeminiTextGenerator-Klasse, um Gemini-Textgeneratormodelle zu erstellen. Verwenden Sie diese Modelle für Aufgaben zur Textgenerierung.
Verwenden Sie die PaLM2TextGenerator-Klasse, um PaLM2-Textgenerator-Modelle zu erstellen. Verwenden Sie diese Modelle für Aufgaben zur Textgenerierung.
Verwenden Sie die PaLM2TextEmbeddingGenerator-Klasse, um Modelle für PaLM2-Texteinbettungen zu erstellen. Verwenden Sie diese Modelle für Aufgaben zur Generierung von Texteinbettungen.
Mit dem Modul bigframes.ml.llm
können Sie Estimators für Remote-Großsprachmodelle (LLMs) erstellen.
Im folgenden Codebeispiel wird gezeigt, wie diebigframes.ml.llm
GeminiTextGenerator
-Klasse verwendet wird, um ein Gemini-Modell für die Codegenerierung zu erstellen:
Remotemodelle
Um BigQuery DataFrames ML-Remote-Modelle (bigframes.ml.remote oder bigframes.ml.llm) zu verwenden, müssen Sie die folgenden APIs aktivieren:
- BigQuery API (
bigquery.googleapis.com
) - Die BigQuery Connection API (
bigqueryconnection.googleapis.com
) - Die Vertex AI API (
aiplatform.googleapis.com
) - Cloud Resource Manager API (
cloudresourcemanager.googleapis.com
)Sie können diese Anforderung vermeiden, indem Sie die Option
bigframes.pandas.options.bigquery.skip_bq_connection_check
aufTrue
setzen. In diesem Fall wird die Verbindung (entweder standardmäßig oder vorkonfiguriert) unverändert verwendet, ohne dass die Existenz der Verbindung oder Überprüfung ihrer Berechtigungen geprüft wird.
Sie benötigen außerdem die folgenden IAM-Rollen im Projekt:
- BigQuery Connection Admin (
roles/bigquery.connectionAdmin
) - Projekt-IAM-Administrator (
roles/resourcemanager.projectIamAdmin
), wenn die BigQuery-Standardverbindung verwendet wird, oder Browser (Rollen/Browser), wenn eine vorkonfigurierte Verbindung verwendet wird. Diese Anforderung kann vermieden werden, indem die Optionbigframes.pandas.options.bigquery.skip_bq_connection_check
aufTrue
gesetzt wird. In diesem Fall wird die Verbindung (Standard oder vorkonfiguriert) unverändert verwendet, ohne dass geprüft wird, ob sie besteht oder eine Berechtigung vorhanden ist. Wenn Sie die vorkonfigurierte Verbindung verwenden und die Verbindungsprüfung überspringen, achten Sie darauf, dass die Verbindung am richtigen Standort erstellt wird und das Dienstkonto die Rolle "Vertex AI-Nutzer"roles/aiplatform.user
für das Projekt hat.
Durch das Erstellen eines Remote-Modells in BigQuery DataFrames wird eine BigQuery-Verbindung erstellt.
Standardmäßig wird eine Verbindung des Namens bigframes-default-connection
verwendet.
Sie können eine vorkonfigurierte BigQuery-Verbindung verwenden, wenn Sie möchten. In diesem Fall wird die Verbindungserstellung übersprungen. Dem Dienstkonto für die Standardverbindung wurde die IAM-Rolle
Vertex AI-Nutzer (roles/aiplatform.user
)
zugewiesen.
Pipelines erstellen
Erstellen Sie ML-Pipelines mit dem bigframes.ml.pipeline-Modul. Mit Pipelines können Sie mehrere ML-Schritte zusammenstellen, die gemeinsam validiert werden sollen, während Sie verschiedene Parameter festlegen. Dies vereinfacht den Code und ermöglicht es Ihnen, Datenvorverarbeitungsschritte und einen Estimator zusammen bereitzustellen.
Verwenden Sie die Pipelineklasse, um eine Pipeline von Transformationen mit einem endgültigen Estimator zu erstellen.