Diese Seite wurde von der Cloud Translation API übersetzt.

Einführung in KI und ML in BigQuery

Mit BigQuery ML können Sie über GoogleSQL-Abfragen oder die Google Cloud Konsole ML-Modelle erstellen und ausführen. BigQuery ML-Modelle werden in BigQuery-Datasets gespeichert, ähnlich wie Tabellen und Ansichten. Außerdem haben Sie mit BigQuery ML Zugriff auf Vertex AI-Modelle und Cloud AI APIs, um Aufgaben im Bereich künstliche Intelligenz (KI) wie Textgenerierung oder maschinelle Übersetzung auszuführen. Gemini für Google Cloud bietet auch KI-basierte Unterstützung für BigQuery-Aufgaben. Eine Liste der KI-basierten Funktionen in BigQuery finden Sie unter Gemini in BigQuery – Übersicht.

Normalerweise erfordert das Ausführen von ML oder KI für große Datasets umfangreiche Programmierung und ML-Framework-Kenntnisse. Diese Anforderungen beschränken die Lösungsentwicklung in den meisten Unternehmen auf einen sehr kleinen Personenkreis. Datenanalysten gehören nicht dazu, da sie die Daten zwar verstehen können, aber ihre Programmierkenntnisse und ihr Wissen im Hinblick auf ML begrenzt sind. Mit BigQuery ML können SQL-Anwender jedoch vorhandene SQL-Tools und -Fertigkeiten nutzen, um Modelle zu erstellen und zu bewerten sowie Ergebnisse aus LLMs und Cloud AI APIs zu generieren.

Sie können über folgende Elemente mit den BigQuery ML-Funktionen arbeiten:

Die Google Cloud Console-Benutzeroberfläche, um über eine Benutzeroberfläche mit Modellen zu arbeiten. (Vorschau)
Der Google Cloud Console-Abfrageeditor, um mit Modellen mithilfe von SQL-Abfragen zu arbeiten.
bq-Befehlszeilentool
Die BigQuery REST API
Integrierte Colab Enterprise-Notebooks in BigQuery
Externe Tools wie ein Jupyter-Notebook oder eine Business Intelligence-Plattform

Vorteile von BigQuery ML

BigQuery ML bietet mehrere Vorteile gegenüber anderen Ansätzen zur Nutzung von ML oder KI mit einem cloudbasierten Data Warehouse:

BigQuery ML demokratisiert den Einsatz von ML und KI. Datenanalysten, die hauptsächlichen Nutzer eines Data Warehouse, können mithilfe von BigQuery ML Modelle mit vorhandenen Business Intelligence-Tools und Tabellen erstellen und ausführen. Prädiktive Analysen können bei der Entscheidungsfindung im gesamten Unternehmen helfen.
Sie müssen keine ML- oder KI-Lösung mit Python oder Java programmieren. Sie trainieren Modelle und greifen auf KI-Ressourcen mit SQL zu – eine Sprache, die Datenanalysten vertraut ist.
BigQuery ML erhöht die Geschwindigkeit der Modellentwicklung und -innovation, da keine Daten mehr aus dem Data Warehouse bewegt werden müssen. BigQuery ML bringt ML stattdessen zu den Daten, was folgende Vorteile bietet:
- Weniger Komplexität, da weniger Tools erforderlich sind.
- Schnellere Produktion, da das Verschieben und Formatieren großer Datenmengen für Python-basierte ML-Frameworks für das Modelltraining in BigQuery nicht erforderlich ist.
Weitere Informationen finden Sie im Video Beschleunigung der Entwicklung in Bezug auf maschinelles Lernen mit BigQuery ML.

Empfohlenes Wissen

Mit den Standardeinstellungen in den CREATE MODEL-Anweisungen und den Inferenzfunktionen können Sie BigQuery ML-Modelle auch ohne viel ML-Wissen erstellen und verwenden. Grundkenntnisse über den ML-Entwicklungszyklus, z. B. Feature Engineering und Modelltraining, helfen Ihnen jedoch, sowohl Ihre Daten als auch Ihr Modell zu optimieren, um bessere Ergebnisse zu erzielen. Wir empfehlen die folgenden Ressourcen, um sich mit ML-Techniken und -Prozessen vertraut zu machen:

Generative KI und vortrainierte Modelle

Mit BigQuery ML können Sie eine Reihe von generativen KI-Aufgaben ausführen.

Verwenden Sie Remote-Modelle, die BigQuery ML-Modelle über Vertex AI-Modellen sind, um die folgenden Aufgaben auszuführen:
- Textgenerierung mithilfe von Vertex AI-Text- oder multimodalen Modellen
- Text- oder multimodale Einbettung mithilfe von Vertex AI-Einbettungsmodellen.
Mit BigQuery ML-Funktionen können Sie die folgenden Aufgaben ausführen:
- Werte eines bestimmten Typs generieren mit Funktionen für von Vertex AI gehostete Modelle.
- Prognosen mit einer Funktion für das integrierte TimesFM-Zeitreihenmodell von BigQuery ML erstellen.
Mit Remote-Modellen über Cloud AI APIs können Sie die folgenden Aufgaben ausführen:
- Natural Language Processing mithilfe der Cloud Natural Language API.
- Maschinenübersetzung mithilfe der Cloud Translation API.
- Dokumentverarbeitung mit der Document AI API.
- Audio transkribieren mit der Speech-to-Text API.
- Computer Vision

Unterstützte Modelle

Ein Modell in BigQuery ML stellt Informationen dar, die ein ML-System aus Trainingsdaten gewonnen hat. In den folgenden Abschnitten werden die von BigQuery ML unterstützten Modelltypen beschrieben. Weitere Informationen zum Erstellen von Reservierungszuweisungen für die verschiedenen Modelltypen finden Sie unter BigQuery ML-Arbeitslasten Slots zuweisen.

Intern trainierte Modelle

Die folgenden Modelle sind in BigQuery ML eingebunden:

Mit der Beitragsanalyse lässt sich die Wirkung einer oder mehrerer Dimensionen auf den Wert eines bestimmten Messwerts ermitteln. So können Sie beispielsweise die Auswirkungen von Standort und Verkaufsdatum auf den Umsatz eines Geschäfts analysieren. Weitere Informationen finden Sie unter Übersicht über die Analyse von Beiträgen.
Mit der linearen Regression lässt sich der Wert eines numerischen Messwerts für neue Daten vorhersagen. Dazu wird ein Modell verwendet, das mit ähnlichen Remote-Daten trainiert wurde. Labels sind reellwertig, d. h. sie können weder positiv unendlich noch negativ unendlich noch ein NaN (Not a Number) sein.
Die logistische Regression wird für die Klassifizierung von zwei oder mehr möglichen Werten verwendet, z. B. ob eine Eingabe low-value, medium-value oder high-value ist. Jedes Label kann bis zu 50 Einzelwerte haben.
K-Means-Clustering zur Datensegmentierung. Beispielsweise identifiziert dieses Modell Kundensegmente. Da K-Means ein unüberwachtes Lernverfahren ist, sind für das Modelltraining weder Labels noch Datenaufteilungen für die Trainings- oder Evaluierungsphase erforderlich.
Matrixfaktorisierung zum Erstellen von Produktempfehlungssystemen. Sie können Produktempfehlungen auf der Grundlage des bisherigen Kundenverhaltens, der Transaktionen und der Produktbewertungen erstellen und diese Empfehlungen dann für personalisierte Kundenerfahrungen verwenden.
Analyse der Hauptkomponenten (PCA) ist der Prozess der Berechnung der Hauptkomponenten und deren Verwendung, um eine Änderung der Basis der Daten durchzuführen. Es wird häufig zur Dimensionalitätsreduktion verwendet. Dabei wird jeder Datenpunkt auf die ersten Hauptkomponenten projiziert, um niedrigdimensionale Daten zu erhalten und gleichzeitig einen möglichst großen Teil der Datenabweichung beizubehalten.
Mit „Zeitreihen“ können Sie Zeitreihenprognosen erstellen und Anomalien erkennen. Die Zeitreihenmodelle ARIMA_PLUS und ARIMA_PLUS_XREG bieten mehrere Optimierungsoptionen und verarbeiten Anomalien, Saisonabhängigkeiten und Feiertage automatisch.

Wenn Sie kein eigenes Zeitreihenprognosemodell verwalten möchten, können Sie die Funktion AI.FORECAST mit dem integrierten TimesFM-Zeitreihenmodell von BigQuery ML (Vorschau) verwenden, um Prognosen zu erstellen.

Sie können für intern trainierte Modelle einen Probelauf für die CREATE MODEL-Anweisungen ausführen, um bei der Ausführung eine Schätzung der verarbeiteten Daten zu erhalten.

Extern trainierte Modelle

Die folgenden Modelle befinden sich außerhalb von BigQuery ML und werden in Vertex AI trainiert:

Neuronales Deep-Learning-Netzwerk (DNN) zum Erstellen von TensorFlow-basierten neuronalen Deep-Learning-Netzwerken für Klassifizierungsmodelle und Regressionsmodelle.
Wide & Deep ist für allgemeine umfangreiche Regressions- und Klassifizierungsprobleme mit dünnbesetzten Eingaben (kategoriale Features mit einer großen Zahl möglicher Featurewerte) wie z. B. Recommender-Systeme, Suche und Rankingprobleme nützlich.
Autoencoder dient zum Erstellen von TensorFlow-basierten Modellen mit Unterstützung für dünnbesetzte Datendarstellungen. Sie können die Modelle in BigQuery ML für Aufgaben wie die unüberwachte Anomalieerkennung und die nicht-lineare Dimensionsreduzierung verwenden.
Boosted Trees dient zum Erstellen von Klassifizierungs- und Regressionsmodellen, die auf XGBoost basieren.
Random Forest dient zum Erstellen mehrerer Entscheidungsmethoden für Lernmethoden zur Klassifizierung, Regression und anderen Aufgaben zum Zeitpunkt des Trainings.
AutoML ist ein überwachter ML-Dienst, der Klassifizierungs- und Regressionsmodelle für tabellarische Daten mit hoher Geschwindigkeit und Skalierung erstellt und bereitstellt.

Probeläufe können für die CREATE MODEL-Anweisungen für extern trainierte Modelle nicht ausgeführt werden, um eine Schätzung der Datenmenge zu erhalten, die durch sie verarbeitet wird.

Remotemodelle

Sie können in BigQuery Remote-Modelle erstellen, die in Vertex AI bereitgestellte Modelle verwenden. Sie verweisen auf das bereitgestellte Modell, indem Sie den HTTPS-Endpunkt des Modells in der CREATE MODEL-Anweisung des Remote-Modells angeben.

Die CREATE MODEL-Anweisungen für Remote-Modelle verarbeiten keine Byte und es fallen auch keine BigQuery-Gebühren an.

Importierte Modelle

Mit BigQuery ML können Sie benutzerdefinierte Modelle importieren, die außerhalb von BigQuery trainiert wurden, und dann Vorhersagen in BigQuery ausführen. Sie können folgende Modelle aus Cloud Storage in BigQuery importieren:

Open Neural Network Exchange (ONNX) ist ein offenes Standardformat zur Darstellung von ML-Modellen. Mit ONNX können Sie Modelle, die mit gängigen ML-Frameworks wie PyTorch und scikit-learn trainiert wurden, in BigQuery ML zur Verfügung stellen.
TensorFlow ist eine kostenlose Open-Source-Softwarebibliothek für ML und künstliche Intelligenz. Sie können TensorFlow für verschiedene Aufgaben verwenden. Der Schwerpunkt liegt jedoch auf dem Training und der Inferenz neuronaler Deep-Learning-Netzwerke. Sie können zuvor trainierte TensorFlow-Modelle als BigQuery ML-Modelle in BigQuery laden und dann Vorhersagen in BigQuery ML erstellen.
TensorFlow Lite ist eine schlanke Version von TensorFlow für die Bereitstellung auf Mobilgeräten, Mikrocontrollern und anderen Edge-Geräten. TensorFlow optimiert vorhandene TensorFlow-Modelle für eine reduzierte Modellgröße und eine schnellere Inferenz.
XGBoost ist eine optimierte, verteilte Gradient-Boost-Bibliothek, die hocheffizient, flexibel und portierbar ist. Die Implementierung der ML-Algorithmen erfolgt im Rahmen des Gradient Boosting-Frameworks.

Die CREATE MODEL-Anweisungen für importierte Modelle verarbeiten keine Byte und es fallen auch keine BigQuery-Gebühren an.

In BigQuery ML können Sie ein Modell mit Daten aus mehreren BigQuery-Datasets für Training und Vorhersage verwenden.

Leitfaden zur Modellauswahl

Laden Sie den Entscheidungsbaum für die Modellauswahl herunter.

BigQuery ML und Vertex AI

BigQuery ML lässt sich in Vertex AI einbinden, die End-to-End-Plattform für KI und ML in Google Cloud. Sie können Ihre BigQuery ML-Modelle in Model Registry registrieren, um diese Modelle für Endpunkte für Onlinevorhersagen bereitzustellen. Weitere Informationen nachstehend:

Weitere Informationen zur Verwendung von BigQuery ML-Modellen mit Vertex AI finden Sie unter BigQuery ML-Modelle mit Vertex AI verwalten.
Wenn Sie mit Vertex AI nicht vertraut sind und mehr über dessen Einbindung in BigQuery ML erfahren möchten, lesen Sie die Informationen unter Vertex AI für BigQuery-Nutzer.
Sehen Sie sich das Video KI-Modelle mit Vertex AI und BigQuery ML vereinfachen an.

BigQuery ML und Colab Enterprise

Sie können jetzt Colab Enterprise-Notebooks verwenden, um ML-Workflows in BigQuery auszuführen. Mit Notebooks können Sie Ihre ML-Aufgaben unter Nutzung von SQL, Python und anderen beliebten Bibliotheken und Sprachen erfüllen. Weitere Informationen finden Sie unter Notebooks erstellen.

Unterstützte Regionen

BigQuery ML wird in denselben Regionen wie BigQuery unterstützt. Weitere Informationen finden Sie unter BigQuery ML-Standorte.

Preise

Ihnen werden die Rechenressourcen in Rechnung gestellt, die Sie zum Trainieren von Modellen und zum Ausführen von Abfragen für Modelle verwenden. Der von Ihnen erstellte Modelltyp wirkt sich darauf aus, wo das Modell trainiert wird, und auf die für diesen Vorgang geltenden Preise. Abfragen für Modelle werden immer in BigQuery ausgeführt und es gelten die BigQuery-Rechenpreise. Da Remote-Modelle Aufrufe an Vertex AI-Modelle ausführen, fallen für Abfragen für Remote-Modelle auch Gebühren von Vertex AI an.

Die Speicherung trainierter Modelle wird Ihnen gemäß den Preisen für die BigQuery-Speicherung in Rechnung gestellt.

Weitere Informationen finden Sie unter BigQuery ML-Preise.

Kontingente

Für Abfragen, die BigQuery ML-Funktionen und CREATE MODEL-Anweisungen verwenden, gelten neben den BigQuery ML-spezifischen Limits die Kontingente und Limits für BigQuery-Abfragejobs.

Beschränkungen

BigQuery ML ist in der Standardversion nicht verfügbar.

Nächste Schritte

Informationen zur Verwendung von BigQuery ML finden Sie unter Modelle für maschinelles Lernen in BigQuery ML erstellen.
Weitere Informationen zum maschinellen Lernen und zu BigQuery ML finden Sie in folgenden Ressourcen:
- Kurs bei Coursera: Mit Google Cloudmaschinelles Lernen auf Daten anwenden
- Schulungsprogramm: Intelligente Analysen und Datenverwaltung
- Intensivkurs zum maschinellen Lernen
- Glossar zum maschinellen Lernen
Weitere Informationen zu MLOps mit Model Registry finden Sie unter BigQuery ML-Modelle in Vertex AI verwalten.
Weitere Informationen zu unterstützten SQL-Anweisungen und -Funktionen für verschiedene Modelltypen finden Sie in den folgenden Dokumenten: