Einführung in KI und ML in BigQuery

Mit BigQuery ML können Sie über GoogleSQL-Abfragen ML-Modelle erstellen und ausführen. Außerdem haben Sie Zugriff auf Vertex AI-Modelle und Cloud AI APIs um Aufgaben im Bereich künstliche Intelligenz (KI) wie Textgenerierung oder maschinelle Übersetzung auszuführen. Gemini for Google Cloud bietet auch KI-basierte Unterstützung für BigQuery-Aufgaben. Eine Liste der KI-gestützten Features in BigQuery finden Sie unter Gemini in BigQuery.

Normalerweise erfordert das Ausführen von ML oder KI für große Datasets umfangreiche Programmierung und ML-Framework-Kenntnisse. Diese Anforderungen beschränken die Lösungsentwicklung in den meisten Unternehmen auf einen sehr kleinen Personenkreis. Datenanalysten gehören nicht dazu, da sie die Daten zwar verstehen können, aber ihre Programmierkenntnisse und ihr Wissen im Hinblick auf ML begrenzt sind. Mit BigQuery ML können SQL-Anwender jedoch vorhandene SQL-Tools und -Fertigkeiten nutzen, um Modelle zu erstellen und zu bewerten sowie Ergebnisse aus LLMs und Cloud AI APIs zu generieren.

Sie können über folgende Elemente mit den BigQuery ML-Funktionen arbeiten:

  • Die Google Cloud Console
  • Das bq-Befehlszeilentool
  • Die BigQuery REST API
  • Integrierte Colab Enterprise-Notebooks in BigQuery
  • Externe Tools wie ein Jupyter-Notebook oder eine Business Intelligence-Plattform

Vorteile von BigQuery ML

BigQuery ML bietet mehrere Vorteile gegenüber anderen Ansätzen zur Nutzung von ML oder KI mit einem cloudbasierten Data Warehouse:

  • BigQuery ML demokratisiert den Einsatz von ML und KI. Datenanalysten, die hauptsächlichen Nutzer eines Data Warehouse, können mithilfe von BigQuery ML Modelle mit vorhandenen Business Intelligence-Tools und Tabellen erstellen und ausführen. Prädiktive Analysen können bei der Entscheidungsfindung im gesamten Unternehmen helfen.
  • Sie müssen keine ML- oder KI-Lösung mit Python oder Java programmieren. Sie trainieren Modelle und greifen auf KI-Ressourcen mit SQL zu – eine Sprache, die Datenanalysten vertraut ist.
  • BigQuery ML erhöht die Geschwindigkeit der Modellentwicklung und -innovation, da keine Daten mehr aus dem Data Warehouse bewegt werden müssen. BigQuery ML bringt ML stattdessen zu den Daten, was folgende Vorteile bietet:

    • Geringere Komplexität, da weniger Tools erforderlich sind.
    • Höhere Geschwindigkeit in der Produktion, da das Verschieben und Formatieren großer Datenmengen für Python-basierte ML-Frameworks zum Trainieren eines Modells in BigQuery nicht erforderlich ist.

    Weitere Informationen finden Sie im Video Beschleunigung der Entwicklung in Bezug auf maschinelles Lernen mit BigQuery ML.

Unterstützte KI-Ressourcen

Sie können Remote-Modelle verwenden, um über BigQuery ML auf KI-Ressourcen wie LLMs zuzugreifen. BigQuery ML unterstützt folgende KI-Ressourcen:

Unterstützte Modelle

Ein Modell in BigQuery ML stellt Informationen dar, die ein ML-System aus Trainingsdaten gewonnen hat. In den folgenden Abschnitten werden die von BigQuery ML unterstützten Modelltypen beschrieben.

Intern trainierte Modelle

Die folgenden Modelle sind in BigQuery ML eingebunden:

  • Die lineare Regression ist für Prognosen vorgesehen. Mit diesem Modell werden beispielsweise die Verkäufe eines Artikels an einem bestimmten Tag vorhergesagt. Labels sind reellwertig, d. h. sie können weder positiv unendlich noch negativ unendlich noch ein NaN (Not a Number) sein.
  • Die logistische Regression wird für die Klassifizierung von zwei oder mehr möglichen Werten verwendet, z. B. ob eine Eingabe low-value, medium-value oder high-value ist. Jedes Label kann bis zu 50 Einzelwerte haben.
  • K-Means-Clustering zur Datensegmentierung. Beispielsweise identifiziert dieses Modell Kundensegmente. Da K-Means ein unüberwachtes Lernverfahren ist, sind für das Modelltraining weder Labels noch Datenaufteilungen für die Trainings- oder Evaluierungsphase erforderlich.
  • Matrixfaktorisierung zum Erstellen von Produktempfehlungssystemen. Sie können Produktempfehlungen auf der Grundlage des bisherigen Kundenverhaltens, der Transaktionen und der Produktbewertungen erstellen und diese Empfehlungen dann für personalisierte Kundenerfahrungen verwenden.
  • Analyse der Hauptkomponenten (PCA) ist der Prozess der Berechnung der Hauptkomponenten und deren Verwendung, um eine Änderung der Basis der Daten durchzuführen. Es wird häufig zur Dimensionalitätsreduktion verwendet. Dabei wird jeder Datenpunkt auf die ersten Hauptkomponenten projiziert, um niedrigdimensionale Daten zu erhalten und gleichzeitig einen möglichst großen Teil der Datenabweichung beizubehalten.
  • Zeitachsen zum Erstellen von Zeitachsenprognosen. Mit dieser Funktion können Sie Millionen von Zeitachsenmodellen erstellen und für Prognosen verwenden. Das Modell verarbeitet Anomalien, Saisonabhängigkeiten und Feiertage automatisch.

Sie können für intern trainierte Modelle einen Probelauf für die CREATE MODEL-Anweisungen ausführen, um bei der Ausführung eine Schätzung der verarbeiteten Daten zu erhalten.

Extern trainierte Modelle

Die folgenden Modelle befinden sich außerhalb von BigQuery ML und werden in Vertex AI trainiert:

  • Neuronales Deep-Learning-Netzwerk (DNN) zum Erstellen von TensorFlow-basierten neuronalen Deep-Learning-Netzwerken für Klassifizierungsmodelle und Regressionsmodelle.
  • Wide & Deep ist für allgemeine umfangreiche Regressions- und Klassifizierungsprobleme mit dünnbesetzten Eingaben (kategoriale Features mit einer großen Zahl möglicher Featurewerte) wie z. B. Recommender-Systeme, Suche und Rankingprobleme nützlich.
  • Autoencoder dient zum Erstellen von TensorFlow-basierten Modellen mit Unterstützung für dünnbesetzte Datendarstellungen. Sie können die Modelle in BigQuery ML für Aufgaben wie die unüberwachte Anomalieerkennung und die nicht-lineare Dimensionsreduzierung verwenden.
  • Boosted Tree dient zum Erstellen von Klassifizierungs- und Regressionsmodellen, die auf XGBoost basieren.
  • Random Forest dient zum Erstellen mehrerer Entscheidungsmethoden für Lernmethoden zur Klassifizierung, Regression und anderen Aufgaben zum Zeitpunkt des Trainings.
  • AutoML ist ein überwachter ML-Dienst, der Klassifizierungs- und Regressionsmodelle für tabellarische Daten mit hoher Geschwindigkeit und Skalierung erstellt und bereitstellt.

Probeläufe können für die CREATE MODEL-Anweisungen für extern trainierte Modelle nicht ausgeführt werden, um eine Schätzung der Datenmenge zu erhalten, die durch sie verarbeitet wird.

Remotemodelle

Sie können in BigQuery Remote-Modelle erstellen, die in Vertex AI bereitgestellte Modelle verwenden. Sie verweisen auf das bereitgestellte Modell, indem Sie den HTTPS-Endpunkt des Modells in der CREATE MODEL-Anweisung des Remote-Modells angeben.

Die CREATE MODEL-Anweisungen für Remote-Modelle verarbeiten keine Byte und es fallen auch keine BigQuery-Gebühren an.

Importierte Modelle

Mit BigQuery ML können Sie benutzerdefinierte Modelle importieren, die außerhalb von BigQuery trainiert wurden, und dann Vorhersagen in BigQuery ausführen. Sie können folgende Modelle aus Cloud Storage in BigQuery importieren:

  • Open Neural Network Exchange (ONNX) ist ein offenes Standardformat zur Darstellung von ML-Modellen. Mit ONNX können Sie Modelle, die mit gängigen ML-Frameworks wie PyTorch und scikit-learn trainiert wurden, in BigQuery ML zur Verfügung stellen.
  • TensorFlow ist eine kostenlose Open-Source-Softwarebibliothek für ML und künstliche Intelligenz. Sie können TensorFlow für verschiedene Aufgaben verwenden. Der Schwerpunkt liegt jedoch auf dem Training und der Inferenz neuronaler Deep-Learning-Netzwerke. Sie können zuvor trainierte TensorFlow-Modelle als BigQuery ML-Modelle in BigQuery laden und dann Vorhersagen in BigQuery ML erstellen.
  • TensorFlow Lite ist eine schlanke Version von TensorFlow für die Bereitstellung auf Mobilgeräten, Mikrocontrollern und anderen Edge-Geräten. TensorFlow optimiert vorhandene TensorFlow-Modelle für eine reduzierte Modellgröße und eine schnellere Inferenz.
  • XGBoost ist eine optimierte, verteilte Gradient-Boost-Bibliothek, die hocheffizient, flexibel und portierbar ist. Die Implementierung der ML-Algorithmen erfolgt im Rahmen des Gradient Boosting-Frameworks.

Die CREATE MODEL-Anweisungen für importierte Modelle verarbeiten keine Byte und es fallen auch keine BigQuery-Gebühren an.

In BigQuery ML können Sie ein Modell mit Daten aus mehreren BigQuery-Datasets für Training und Vorhersage verwenden.

Leitfaden zur Modellauswahl

In diesem Entscheidungsbaum werden ML-Modelle Aktionen zugeordnet, die Sie ausführen möchten. Laden Sie den Entscheidungsbaum für die Modellauswahl herunter.

BigQuery ML und Vertex AI

BigQuery ML lässt sich in Vertex AI einbinden, die End-to-End-Plattform für KI und ML in Google Cloud. Wenn Sie Ihre BigQuery ML-Modelle in Model Registry registrieren, können Sie diese Modelle für Endpunkte für Onlinevorhersagen bereitstellen. Weitere Informationen nachstehend:

BigQuery ML und Colab Enterprise

Sie können jetzt Colab Enterprise-Notebooks verwenden, um ML-Workflows in BigQuery auszuführen. Mit Notebooks können Sie Ihre ML-Aufgaben unter Nutzung von SQL, Python und anderen beliebten Bibliotheken und Sprachen erfüllen. Weitere Informationen finden Sie unter Notebooks erstellen.

Unterstützte Regionen

BigQuery ML wird in denselben Regionen wie BigQuery unterstützt. Weitere Informationen finden Sie unter BigQuery ML-Standorte.

Preise

BigQuery ML-Modelle werden genauso wie Tabellen und Ansichten in BigQuery-Datasets gespeichert. Weitere Informationen zu den Preisen für BigQuery ML finden Sie unter BigQuery ML-Preise.

Informationen zu den Preisen für die BigQuery-Speicherung finden Sie unter Speicherpreise.

Informationen zu den Preisen für BigQuery ML-Abfragen finden Sie unter Abfragepreise.

Kontingente

Für Abfragen, die BigQuery ML-Funktionen und CREATE MODEL-Anweisungen verwenden, gelten neben den BigQuery ML-spezifischen Limits die Kontingente und Limits für BigQuery-Abfragejobs.

Beschränkungen

  • BigQuery ML ist in der Standardversion nicht verfügbar.
  • BigQuery ML löst keine Autoscaling-Slots aus. Sie müssen eine Baseline-Anzahl von Slots festlegen, um BigQuery ML mit einer BigQuery-Version zu verwenden. Diese Einschränkung gilt nur für extern trainierte Modelle, nicht für intern trainierte Modelle. Weitere Informationen zu den Modelltypen finden Sie unter Unterstützte Modelle.

Nächste Schritte