Einführung in KI und ML in BigQuery
Mit BigQuery ML können Sie über GoogleSQL-Abfragen ML-Modelle erstellen und ausführen. Außerdem haben Sie Zugriff auf Vertex AI-Modelle und Cloud AI APIs um Aufgaben im Bereich künstliche Intelligenz (KI) wie Textgenerierung oder maschinelle Übersetzung auszuführen. Gemini for Google Cloud bietet auch KI-basierte Unterstützung für BigQuery-Aufgaben. Eine Liste der KI-gestützten Features in BigQuery finden Sie unter Gemini in BigQuery.
Normalerweise erfordert das Ausführen von ML oder KI für große Datasets umfangreiche Programmierung und ML-Framework-Kenntnisse. Diese Anforderungen beschränken die Lösungsentwicklung in den meisten Unternehmen auf einen sehr kleinen Personenkreis. Datenanalysten gehören nicht dazu, da sie die Daten zwar verstehen können, aber ihre Programmierkenntnisse und ihr Wissen im Hinblick auf ML begrenzt sind. Mit BigQuery ML können SQL-Anwender jedoch vorhandene SQL-Tools und -Fertigkeiten nutzen, um Modelle zu erstellen und zu bewerten sowie Ergebnisse aus LLMs und Cloud AI APIs zu generieren.
Sie können über folgende Elemente mit den BigQuery ML-Funktionen arbeiten:
- Die Google Cloud Console
- Das bq-Befehlszeilentool
- Die BigQuery REST API
- Integrierte Colab Enterprise-Notebooks in BigQuery
- Externe Tools wie ein Jupyter-Notebook oder eine Business Intelligence-Plattform
Vorteile von BigQuery ML
BigQuery ML bietet mehrere Vorteile gegenüber anderen Ansätzen zur Nutzung von ML oder KI mit einem cloudbasierten Data Warehouse:
- BigQuery ML demokratisiert den Einsatz von ML und KI. Datenanalysten, die hauptsächlichen Nutzer eines Data Warehouse, können mithilfe von BigQuery ML Modelle mit vorhandenen Business Intelligence-Tools und Tabellen erstellen und ausführen. Prädiktive Analysen können bei der Entscheidungsfindung im gesamten Unternehmen helfen.
- Sie müssen keine ML- oder KI-Lösung mit Python oder Java programmieren. Sie trainieren Modelle und greifen auf KI-Ressourcen mit SQL zu – eine Sprache, die Datenanalysten vertraut ist.
BigQuery ML erhöht die Geschwindigkeit der Modellentwicklung und -innovation, da keine Daten mehr aus dem Data Warehouse bewegt werden müssen. BigQuery ML bringt ML stattdessen zu den Daten, was folgende Vorteile bietet:
- Geringere Komplexität, da weniger Tools erforderlich sind.
- Höhere Geschwindigkeit in der Produktion, da das Verschieben und Formatieren großer Datenmengen für Python-basierte ML-Frameworks zum Trainieren eines Modells in BigQuery nicht erforderlich ist.
Weitere Informationen finden Sie im Video Beschleunigung der Entwicklung in Bezug auf maschinelles Lernen mit BigQuery ML.
Unterstützte KI-Ressourcen
Sie können Remote-Modelle verwenden, um über BigQuery ML auf KI-Ressourcen wie LLMs zuzugreifen. BigQuery ML unterstützt folgende KI-Ressourcen:
- Generative AI durch Verwendung eines der Vertex AI Foundation Models für natürliche Sprache.
- Text- oder multimodale Einbettung mithilfe eines der Vertex AI-Einbettungsbasismodelle.
- Natural Language Processing mithilfe der Cloud Natural Language API.
- Maschinenübersetzung mithilfe der Cloud Translation API.
- Dokumentverarbeitung mit der Document AI API.
- Audiotranskription mithilfe der Speech-to-Text API
- Maschinelles Sehen mithilfe der Cloud Vision API
Unterstützte Modelle
Ein Modell in BigQuery ML stellt Informationen dar, die ein ML-System aus Trainingsdaten gewonnen hat. In den folgenden Abschnitten werden die von BigQuery ML unterstützten Modelltypen beschrieben.
Intern trainierte Modelle
Die folgenden Modelle sind in BigQuery ML eingebunden:
- Die lineare Regression ist für Prognosen vorgesehen. Mit diesem Modell werden beispielsweise die Verkäufe eines Artikels an einem bestimmten Tag vorhergesagt. Labels sind reellwertig, d. h. sie können weder positiv unendlich noch negativ unendlich noch ein NaN (Not a Number) sein.
- Die logistische Regression wird für die Klassifizierung von zwei oder mehr möglichen Werten verwendet, z. B. ob eine Eingabe
low-value
,medium-value
oderhigh-value
ist. Jedes Label kann bis zu 50 Einzelwerte haben. - K-Means-Clustering zur Datensegmentierung. Beispielsweise identifiziert dieses Modell Kundensegmente. Da K-Means ein unüberwachtes Lernverfahren ist, sind für das Modelltraining weder Labels noch Datenaufteilungen für die Trainings- oder Evaluierungsphase erforderlich.
- Matrixfaktorisierung zum Erstellen von Produktempfehlungssystemen. Sie können Produktempfehlungen auf der Grundlage des bisherigen Kundenverhaltens, der Transaktionen und der Produktbewertungen erstellen und diese Empfehlungen dann für personalisierte Kundenerfahrungen verwenden.
- Analyse der Hauptkomponenten (PCA) ist der Prozess der Berechnung der Hauptkomponenten und deren Verwendung, um eine Änderung der Basis der Daten durchzuführen. Es wird häufig zur Dimensionalitätsreduktion verwendet. Dabei wird jeder Datenpunkt auf die ersten Hauptkomponenten projiziert, um niedrigdimensionale Daten zu erhalten und gleichzeitig einen möglichst großen Teil der Datenabweichung beizubehalten.
- Zeitachsen zum Erstellen von Zeitachsenprognosen. Mit dieser Funktion können Sie Millionen von Zeitachsenmodellen erstellen und für Prognosen verwenden. Das Modell verarbeitet Anomalien, Saisonabhängigkeiten und Feiertage automatisch.
Sie können für intern trainierte Modelle einen Probelauf für die CREATE MODEL
-Anweisungen ausführen, um bei der Ausführung eine Schätzung der verarbeiteten Daten zu erhalten.
Extern trainierte Modelle
Die folgenden Modelle befinden sich außerhalb von BigQuery ML und werden in Vertex AI trainiert:
- Neuronales Deep-Learning-Netzwerk (DNN) zum Erstellen von TensorFlow-basierten neuronalen Deep-Learning-Netzwerken für Klassifizierungsmodelle und Regressionsmodelle.
- Wide & Deep ist für allgemeine umfangreiche Regressions- und Klassifizierungsprobleme mit dünnbesetzten Eingaben (kategoriale Features mit einer großen Zahl möglicher Featurewerte) wie z. B. Recommender-Systeme, Suche und Rankingprobleme nützlich.
- Autoencoder dient zum Erstellen von TensorFlow-basierten Modellen mit Unterstützung für dünnbesetzte Datendarstellungen. Sie können die Modelle in BigQuery ML für Aufgaben wie die unüberwachte Anomalieerkennung und die nicht-lineare Dimensionsreduzierung verwenden.
- Boosted Tree dient zum Erstellen von Klassifizierungs- und Regressionsmodellen, die auf XGBoost basieren.
- Random Forest dient zum Erstellen mehrerer Entscheidungsmethoden für Lernmethoden zur Klassifizierung, Regression und anderen Aufgaben zum Zeitpunkt des Trainings.
- AutoML ist ein überwachter ML-Dienst, der Klassifizierungs- und Regressionsmodelle für tabellarische Daten mit hoher Geschwindigkeit und Skalierung erstellt und bereitstellt.
Probeläufe können für die CREATE MODEL
-Anweisungen für extern trainierte Modelle nicht ausgeführt werden, um eine Schätzung der Datenmenge zu erhalten, die durch sie verarbeitet wird.
Remotemodelle
Sie können in BigQuery Remote-Modelle erstellen, die in Vertex AI bereitgestellte Modelle verwenden.
Sie verweisen auf das bereitgestellte Modell, indem Sie den HTTPS-Endpunkt des Modells in der CREATE MODEL
-Anweisung des Remote-Modells angeben.
Die CREATE MODEL
-Anweisungen für Remote-Modelle verarbeiten keine Byte und es fallen auch keine BigQuery-Gebühren an.
Importierte Modelle
Mit BigQuery ML können Sie benutzerdefinierte Modelle importieren, die außerhalb von BigQuery trainiert wurden, und dann Vorhersagen in BigQuery ausführen. Sie können folgende Modelle aus Cloud Storage in BigQuery importieren:
- Open Neural Network Exchange (ONNX) ist ein offenes Standardformat zur Darstellung von ML-Modellen. Mit ONNX können Sie Modelle, die mit gängigen ML-Frameworks wie PyTorch und scikit-learn trainiert wurden, in BigQuery ML zur Verfügung stellen.
- TensorFlow ist eine kostenlose Open-Source-Softwarebibliothek für ML und künstliche Intelligenz. Sie können TensorFlow für verschiedene Aufgaben verwenden. Der Schwerpunkt liegt jedoch auf dem Training und der Inferenz neuronaler Deep-Learning-Netzwerke. Sie können zuvor trainierte TensorFlow-Modelle als BigQuery ML-Modelle in BigQuery laden und dann Vorhersagen in BigQuery ML erstellen.
- TensorFlow Lite ist eine schlanke Version von TensorFlow für die Bereitstellung auf Mobilgeräten, Mikrocontrollern und anderen Edge-Geräten. TensorFlow optimiert vorhandene TensorFlow-Modelle für eine reduzierte Modellgröße und eine schnellere Inferenz.
- XGBoost ist eine optimierte, verteilte Gradient-Boost-Bibliothek, die hocheffizient, flexibel und portierbar ist. Die Implementierung der ML-Algorithmen erfolgt im Rahmen des Gradient Boosting-Frameworks.
Die CREATE MODEL
-Anweisungen für importierte Modelle verarbeiten keine Byte und es fallen auch keine BigQuery-Gebühren an.
In BigQuery ML können Sie ein Modell mit Daten aus mehreren BigQuery-Datasets für Training und Vorhersage verwenden.
Leitfaden zur Modellauswahl
Laden Sie den Entscheidungsbaum für die Modellauswahl herunter.
BigQuery ML und Vertex AI
BigQuery ML lässt sich in Vertex AI einbinden, die End-to-End-Plattform für KI und ML in Google Cloud. Wenn Sie Ihre BigQuery ML-Modelle in Model Registry registrieren, können Sie diese Modelle für Endpunkte für Onlinevorhersagen bereitstellen. Weitere Informationen nachstehend:
- Weitere Informationen zur Verwendung von BigQuery ML-Modellen mit Vertex AI finden Sie unter BigQuery ML-Modelle mit Vertex AI verwalten.
- Wenn Sie mit Vertex AI nicht vertraut sind und mehr über dessen Einbindung in BigQuery ML erfahren möchten, lesen Sie die Informationen unter Vertex AI für BigQuery-Nutzer.
- Sehen Sie sich das Video KI-Modelle mit Vertex AI und BigQuery ML vereinfachen an.
BigQuery ML und Colab Enterprise
Sie können jetzt Colab Enterprise-Notebooks verwenden, um ML-Workflows in BigQuery auszuführen. Mit Notebooks können Sie Ihre ML-Aufgaben unter Nutzung von SQL, Python und anderen beliebten Bibliotheken und Sprachen erfüllen. Weitere Informationen finden Sie unter Notebooks erstellen.
Unterstützte Regionen
BigQuery ML wird in denselben Regionen wie BigQuery unterstützt. Weitere Informationen finden Sie unter BigQuery ML-Standorte.
Preise
BigQuery ML-Modelle werden genauso wie Tabellen und Ansichten in BigQuery-Datasets gespeichert. Weitere Informationen zu den Preisen für BigQuery ML finden Sie unter BigQuery ML-Preise.
Informationen zu den Preisen für die BigQuery-Speicherung finden Sie unter Speicherpreise.
Informationen zu den Preisen für BigQuery ML-Abfragen finden Sie unter Abfragepreise.
Kontingente
Für Abfragen, die BigQuery ML-Funktionen und CREATE MODEL
-Anweisungen verwenden, gelten neben den BigQuery ML-spezifischen Limits die Kontingente und Limits für BigQuery-Abfragejobs.
Beschränkungen
- BigQuery ML ist in der Standardversion nicht verfügbar.
- BigQuery ML löst keine Autoscaling-Slots aus. Sie müssen eine Baseline-Anzahl von Slots festlegen, um BigQuery ML mit einer BigQuery-Version zu verwenden. Diese Einschränkung gilt nur für extern trainierte Modelle, nicht für intern trainierte Modelle. Weitere Informationen zu den Modelltypen finden Sie unter Unterstützte Modelle.
Nächste Schritte
- Informationen zur Verwendung von BigQuery ML finden Sie unter Modelle für maschinelles Lernen in BigQuery ML erstellen.
- Weitere Informationen zum maschinellen Lernen und zu BigQuery ML finden Sie in folgenden Ressourcen:
- Kurs bei Coursera: Mit Google Cloud maschinelles Lernen auf Daten anwenden
- Schulungsprogramm: Intelligente Analysen und Datenverwaltung
- Intensivkurs zum maschinellen Lernen
- Glossar zum maschinellen Lernen
- Weitere Informationen zu MLOps mit Model Registry finden Sie unter BigQuery ML-Modelle in Vertex AI verwalten.