Einführung in KI und ML in BigQuery

Mit BigQuery ML können Sie über GoogleSQL-Abfragen ML-Modelle erstellen und ausführen. BigQuery ML-Modelle werden ähnlich wie Tabellen und Ansichten in BigQuery-Datasets gespeichert. Außerdem haben Sie Zugriff auf Vertex AI-Modelle und Cloud AI APIs, um Aufgaben im Bereich künstliche Intelligenz (KI) wie Textgenerierung oder maschinelle Übersetzung auszuführen. Gemini für Google Cloud bietet auch KI-gestützte Unterstützung für BigQuery-Aufgaben. Eine Liste der KI-gestützten Funktionen in BigQuery finden Sie unter Gemini in BigQuery.

Normalerweise erfordert das Ausführen von ML oder KI für große Datasets umfangreiche Programmierung und ML-Framework-Kenntnisse. Diese Anforderungen beschränken die Lösungsentwicklung in den meisten Unternehmen auf einen sehr kleinen Personenkreis. Datenanalysten gehören nicht dazu, da sie die Daten zwar verstehen können, aber ihre Programmierkenntnisse und ihr Wissen im Hinblick auf ML begrenzt sind. Mit BigQuery ML können SQL-Anwender jedoch vorhandene SQL-Tools und -Fertigkeiten nutzen, um Modelle zu erstellen und zu bewerten sowie Ergebnisse aus LLMs und Cloud AI APIs zu generieren.

Sie können über folgende Elemente mit den BigQuery ML-Funktionen arbeiten:

  • Die Google Cloud Console
  • Das bq-Befehlszeilentool
  • Die BigQuery REST API
  • Integrierte Colab Enterprise-Notebooks in BigQuery
  • Externe Tools wie ein Jupyter-Notebook oder eine Business Intelligence-Plattform

Vorteile von BigQuery ML

BigQuery ML bietet mehrere Vorteile gegenüber anderen Ansätzen zur Nutzung von ML oder KI mit einem cloudbasierten Data Warehouse:

  • BigQuery ML demokratisiert den Einsatz von ML und KI. Datenanalysten, die hauptsächlichen Nutzer eines Data Warehouse, können mithilfe von BigQuery ML Modelle mit vorhandenen Business Intelligence-Tools und Tabellen erstellen und ausführen. Prädiktive Analysen können bei der Entscheidungsfindung im gesamten Unternehmen helfen.
  • Sie müssen keine ML- oder KI-Lösung mit Python oder Java programmieren. Sie trainieren Modelle und greifen auf KI-Ressourcen mit SQL zu – eine Sprache, die Datenanalysten vertraut ist.
  • BigQuery ML erhöht die Geschwindigkeit der Modellentwicklung und -innovation, da keine Daten mehr aus dem Data Warehouse bewegt werden müssen. BigQuery ML bringt ML stattdessen zu den Daten, was folgende Vorteile bietet:

    • Weniger Komplexität, da weniger Tools erforderlich sind.
    • Dadurch geht es schneller in die Produktion, da das Verschieben und Formatieren großer Datenmengen für Python-basierte ML-Frameworks für das Modelltraining in BigQuery nicht erforderlich ist.

    Weitere Informationen finden Sie im Video Beschleunigung der Entwicklung in Bezug auf maschinelles Lernen mit BigQuery ML.

Generative KI und vortrainierte Modelle

Sie können Remote-Modelle verwenden, um über BigQuery ML auf Vertex AI-Modelle und Cloud AI APIs zuzugreifen und die folgenden Aufgaben auszuführen:

Unterstützte Modelle

Ein Modell in BigQuery ML stellt Informationen dar, die ein ML-System aus Trainingsdaten gewonnen hat. In den folgenden Abschnitten werden die von BigQuery ML unterstützten Modelltypen beschrieben.

Intern trainierte Modelle

Die folgenden Modelle sind in BigQuery ML eingebunden:

  • Mit der Beitragsanalyse (Vorabversion) können Sie die Auswirkungen einer oder mehrerer Dimensionen auf den Wert eines bestimmten Messwerts ermitteln. Sie können sich beispielsweise die Auswirkungen des Standorts und des Verkaufsdatums auf den Umsatz des Geschäfts ansehen. Weitere Informationen finden Sie unter Übersicht über die Beitragsanalyse.
  • Mit der linearen Regression lässt sich der Wert eines numerischen Messwerts für neue Daten anhand eines Modells vorhersagen, das mit ähnlichen Remote-Daten trainiert wurde. Labels sind reellwertig, d. h. sie können weder positiv unendlich noch negativ unendlich noch ein NaN (Not a Number) sein.
  • Die logistische Regression wird für die Klassifizierung von zwei oder mehr möglichen Werten verwendet, z. B. ob eine Eingabe low-value, medium-value oder high-value ist. Jedes Label kann bis zu 50 Einzelwerte haben.
  • K-Means-Clustering zur Datensegmentierung. Beispielsweise identifiziert dieses Modell Kundensegmente. Da K-Means ein unüberwachtes Lernverfahren ist, sind für das Modelltraining weder Labels noch Datenaufteilungen für die Trainings- oder Evaluierungsphase erforderlich.
  • Matrixfaktorisierung zum Erstellen von Produktempfehlungssystemen. Sie können Produktempfehlungen auf der Grundlage des bisherigen Kundenverhaltens, der Transaktionen und der Produktbewertungen erstellen und diese Empfehlungen dann für personalisierte Kundenerfahrungen verwenden.
  • Analyse der Hauptkomponenten (PCA) ist der Prozess der Berechnung der Hauptkomponenten und deren Verwendung, um eine Änderung der Basis der Daten durchzuführen. Es wird häufig zur Dimensionalitätsreduktion verwendet. Dabei wird jeder Datenpunkt auf die ersten Hauptkomponenten projiziert, um niedrigdimensionale Daten zu erhalten und gleichzeitig einen möglichst großen Teil der Datenabweichung beizubehalten.
  • Zeitachsen zum Erstellen von Zeitachsenprognosen. Mit dieser Funktion können Sie Millionen von Zeitachsenmodellen erstellen und für Prognosen verwenden. Das Modell verarbeitet Anomalien, Saisonabhängigkeiten und Feiertage automatisch.

Sie können für intern trainierte Modelle einen Probelauf für die CREATE MODEL-Anweisungen ausführen, um bei der Ausführung eine Schätzung der verarbeiteten Daten zu erhalten.

Extern trainierte Modelle

Die folgenden Modelle befinden sich außerhalb von BigQuery ML und werden in Vertex AI trainiert:

  • Neuronales Deep-Learning-Netzwerk (DNN) zum Erstellen von TensorFlow-basierten neuronalen Deep-Learning-Netzwerken für Klassifizierungsmodelle und Regressionsmodelle.
  • Wide & Deep ist für allgemeine umfangreiche Regressions- und Klassifizierungsprobleme mit dünnbesetzten Eingaben (kategoriale Features mit einer großen Zahl möglicher Featurewerte) wie z. B. Recommender-Systeme, Suche und Rankingprobleme nützlich.
  • Autoencoder dient zum Erstellen von TensorFlow-basierten Modellen mit Unterstützung für dünnbesetzte Datendarstellungen. Sie können die Modelle in BigQuery ML für Aufgaben wie die unüberwachte Anomalieerkennung und die nicht-lineare Dimensionsreduzierung verwenden.
  • Boosted Tree dient zum Erstellen von Klassifizierungs- und Regressionsmodellen, die auf XGBoost basieren.
  • Random Forest dient zum Erstellen mehrerer Entscheidungsmethoden für Lernmethoden zur Klassifizierung, Regression und anderen Aufgaben zum Zeitpunkt des Trainings.
  • AutoML ist ein überwachter ML-Dienst, der Klassifizierungs- und Regressionsmodelle für tabellarische Daten mit hoher Geschwindigkeit und Skalierung erstellt und bereitstellt.

Probeläufe können für die CREATE MODEL-Anweisungen für extern trainierte Modelle nicht ausgeführt werden, um eine Schätzung der Datenmenge zu erhalten, die durch sie verarbeitet wird.

Remotemodelle

Sie können in BigQuery Remote-Modelle erstellen, die in Vertex AI bereitgestellte Modelle verwenden. Sie können auf das bereitgestellte Modell verweisen, indem Sie den HTTPS-Endpunkt des Modells in der CREATE MODEL-Anweisung des Remote-Modells angeben.

Die CREATE MODEL-Anweisungen für Remote-Modelle verarbeiten keine Byte und es fallen auch keine BigQuery-Gebühren an.

Importierte Modelle

Mit BigQuery ML können Sie benutzerdefinierte Modelle importieren, die außerhalb von BigQuery trainiert wurden, und dann Vorhersagen in BigQuery ausführen. Sie können folgende Modelle aus Cloud Storage in BigQuery importieren:

  • Open Neural Network Exchange (ONNX) ist ein offenes Standardformat zur Darstellung von ML-Modellen. Mit ONNX können Sie Modelle, die mit gängigen ML-Frameworks wie PyTorch und scikit-learn trainiert wurden, in BigQuery ML zur Verfügung stellen.
  • TensorFlow ist eine kostenlose Open-Source-Softwarebibliothek für ML und künstliche Intelligenz. Sie können TensorFlow für verschiedene Aufgaben verwenden. Der Schwerpunkt liegt jedoch auf dem Training und der Inferenz neuronaler Deep-Learning-Netzwerke. Sie können zuvor trainierte TensorFlow-Modelle als BigQuery ML-Modelle in BigQuery laden und dann Vorhersagen in BigQuery ML erstellen.
  • TensorFlow Lite ist eine schlanke Version von TensorFlow für die Bereitstellung auf Mobilgeräten, Mikrocontrollern und anderen Edge-Geräten. TensorFlow optimiert vorhandene TensorFlow-Modelle für eine reduzierte Modellgröße und eine schnellere Inferenz.
  • XGBoost ist eine optimierte, verteilte Gradient-Boost-Bibliothek, die hocheffizient, flexibel und portierbar ist. Die Implementierung der ML-Algorithmen erfolgt im Rahmen des Gradient Boosting-Frameworks.

Die CREATE MODEL-Anweisungen für importierte Modelle verarbeiten keine Byte und es fallen auch keine BigQuery-Gebühren an.

In BigQuery ML können Sie ein Modell mit Daten aus mehreren BigQuery-Datasets für Training und Vorhersage verwenden.

Leitfaden zur Modellauswahl

In diesem Entscheidungsbaum werden ML-Modelle Aktionen zugeordnet, die Sie ausführen möchten. Laden Sie den Entscheidungsbaum für die Modellauswahl herunter.

BigQuery ML und Vertex AI

BigQuery ML lässt sich in Vertex AI einbinden, die End-to-End-Plattform für KI und ML in Google Cloud. Sie können Ihre BigQuery ML-Modelle in Model Registry registrieren, um diese Modelle für Endpunkte für Onlinevorhersagen bereitzustellen. Weitere Informationen nachstehend:

BigQuery ML und Colab Enterprise

Sie können jetzt Colab Enterprise-Notebooks verwenden, um ML-Workflows in BigQuery auszuführen. Mit Notebooks können Sie Ihre ML-Aufgaben unter Nutzung von SQL, Python und anderen beliebten Bibliotheken und Sprachen erfüllen. Weitere Informationen finden Sie unter Notebooks erstellen.

Unterstützte Regionen

BigQuery ML wird in denselben Regionen wie BigQuery unterstützt. Weitere Informationen finden Sie unter BigQuery ML-Standorte.

Preise

Ihnen werden die Rechenressourcen in Rechnung gestellt, die Sie zum Trainieren von Modellen und zum Ausführen von Abfragen für Modelle verwenden. Der von Ihnen erstellte Modelltyp wirkt sich darauf aus, wo das Modell trainiert wird und welche Preise für diesen Vorgang gelten. Abfragen an Modelle werden immer in BigQuery ausgeführt und gemäß den BigQuery-Rechenpreisen abgerechnet. Da Remote-Modelle Vertex AI-Modelle aufrufen, fallen für Abfragen an Remote-Modelle auch Gebühren von Vertex AI an.

Die Kosten für den von trainierten Modellen genutzten Speicher werden gemäß den BigQuery-Speicherpreisen in Rechnung gestellt.

Weitere Informationen finden Sie unter BigQuery ML-Preise.

Kontingente

Für Abfragen, die BigQuery ML-Funktionen und CREATE MODEL-Anweisungen verwenden, gelten neben den BigQuery ML-spezifischen Limits die Kontingente und Limits für BigQuery-Abfragejobs.

Beschränkungen

  • BigQuery ML ist in der Standardversion nicht verfügbar.
  • BigQuery ML löst keine Autoscaling-Slots aus. Sie müssen eine Baseline-Anzahl von Slots festlegen, um BigQuery ML mit einer BigQuery-Version zu verwenden. Diese Einschränkung gilt nur für extern trainierte Modelle, nicht für intern trainierte Modelle. Weitere Informationen zu den Modelltypen finden Sie unter Unterstützte Modelle.

Nächste Schritte