Einführung in BigQuery ML

Überblick

Mit BigQuery ML können Sie mithilfe von Standard-SQL-Abfragen Modelle für maschinelles Lernen in BigQuery erstellen und ausführen. BigQuery ML demokratisiert maschinelles Lernen, da SQL-Anwender Modelle mithilfe vorhandener SQL-Tools und -Fähigkeiten erstellen können. BigQuery ML erhöht die Entwicklungsgeschwindigkeit, da Daten nicht mehr verschoben werden müssen.

Die BigQuery ML-Funktionalität ist verfügbar mit:

  • der BigQuery-Web-UI
  • dem bq-Befehlszeilentool
  • der BigQuery REST API
  • einem externen Tool (z. B. Jupyter-Notebook) oder einer Business Intelligence Platform.

Maschinelles Lernen mit großen Datasets erfordert umfangreiche Programmier- und ML-Frameworks-Kenntnisse. Diese Anforderungen beschränken die Lösungsentwicklung in den meisten Unternehmen auf einen sehr kleinen Personenkreis. Datenanalysten gehören nicht dazu, da sie die Daten zwar verstehen können, aber ihre Programmierkenntnisse und ihr Wissen im Hinblick auf maschinelles Lernen begrenzt sind.

Mit BigQuery ML müssen sich Datenanalysten kein neues Wissen aneignen und können bereits vorhandene SQL-Tools verwenden, um maschinelles Lernen zu nutzen. Mit BigQuery ML lassen sich ML-Modelle in BigQuery erstellen und bewerten. Der Export kleiner Datenmengen in Tabellen oder andere Anwendungen oder das Warten auf begrenzte Ressourcen eines Data Science-Teams wird so unnötig.

Unterstützte Modelle in BigQuery ML

Ein Modell in BigQuery ML stellt Informationen dar, die ein ML-System aus den Trainingsdaten gewonnen hat.

BigQuery ML unterstützt folgende Modelltypen:

  • Lineare Regression für Prognosen, z. B. wie oft ein bestimmter Artikel an einem bestimmten Tag verkauft wird. Labels sind reellwertig (sie können nicht positiv/negativ unendlich oder NaN sein).
  • Binär logistische Regression zur Klassifizierung, z. B. ob ein Kunde kaufen wird oder nicht. Labels dürfen nur zwei mögliche Werte haben.
  • Mehrklassige logistische Regression zur Klassifizierung: Mit diesen Modellen können mehrere mögliche Werte vorhergesagt werden, z. B. ob eine Eingabe einen "niedrigen Wert", einen "mittleren Wert" oder einen "hohen Wert" hat. Jedes Label kann bis zu 50 Einzelwerte haben. In BigQuery ML wird für das Training mit einem mehrklassigen logistischen Regressionsmodell ein multinominaler Klassifikator mit einer Kreuzentropie-Verlustfunktion verwendet.
  • K-Means-Clustering zur Datensegmentierung; z. B. zur Identifizierung von Kundensegmenten. Da K-Means eine unbeaufsichtigte Lernmethode ist, sind für das Modelltraining weder Labels noch Datenaufteilungen für die Trainings- oder Evaluierungsphase erforderlich.
  • Matrixfaktorisierung zum Erstellen von Produktempfehlungssystemen. Sie können Produktempfehlungen auf Basis des bisherigen Kundenverhaltens, der Transaktionen und der Produktbewertungen erstellen und diese Empfehlungen dann zur Personalisierung der Kundenerfahrungen verwenden.
  • Zeitachsen zum Durchführen von Zeitachsenprognosen. Mit dieser Funktion können Sie Millionen von Zeitachsenmodellen erstellen und für Prognosen verwenden. Das Modell verarbeitet Anomalien, Saisonabhängigkeiten und Feiertage automatisch.
  • Boosted Tree zum Erstellen von XGBoost-basierten Klassifizierungs- und Regressionsmodellen.
  • Neuronales Deep-Learning-Netzwerk (DNN) zum Erstellen von TensorFlow-basierten neuronalen Deep-Learning-Netzwerken für Klassifizierungsmodelle und Regressionsmodelle.
  • AutoML Tables zum Erstellen erstklassiger Modelle ohne Feature Engineering oder Modellauswahl. AutoML Tables durchsucht eine Vielzahl von Modellarchitekturen, um das beste Modell zu ermitteln.
  • Import von TensorFlow-Modellen. Mit diesem Feature können Sie BigQuery ML-Modelle aus zuvor trainierten TensorFlow-Modellen erstellen und dann in BigQuery ML Vorhersagen ausführen.

In BigQuery ML können Sie ein Modell mit Daten aus mehreren BigQuery-Datasets für Training und Vorhersage verwenden.

Vorteile von BigQuery ML

BigQuery ML bietet die folgenden Vorteile gegenüber anderen Ansätzen zur Verwendung von ML mit einem cloudbasierten Data Warehouse:

  • BigQuery ML demokratisiert den Einsatz von ML. Datenanalysten, die hauptsächlichen Nutzer eines Data Warehouse, können mit BigQuery ML Modelle erstellen und ausführen, ohne dabei auf neue Business Intelligence-Tools und Tabellen zugreifen zu müssen. Prognostische Analysen können bei der Entscheidungsfindung im Unternehmen helfen.
  • Es ist nicht notwendig, eine ML-Lösung mit Python oder Java zu programmieren. Modelle werden in BigQuery mit SQL trainiert und abgerufen. SQL ist den meisten Datenanalysten geläufig.
  • BigQuery ML erhöht die Geschwindigkeit der Modellentwicklung und -innovation, da keine Daten mehr aus dem Data Warehouse exportiert werden müssen. Mit BigQuery ML kann ML direkt auf die Daten zugreifen. Die Notwendigkeit, Daten zu exportieren und neu zu formatieren hat folgende Nachteile:

    • Mehr Komplexität: Mehrere Tools sind erforderlich.
    • Reduzierte Geschwindigkeit: Das Verschieben und Formatieren großer Datenmengen für Python-basierte ML-Frameworks dauert länger als das Modelltraining in BigQuery.
    • Mehrere Schritte zum Exportieren von Daten aus dem Warehouse sind erforderlich: Datenexperimente werden dadurch schwieriger.
    • Kann durch rechtliche Einschränkungen (wie HIPAA-Richtlinien) verhindert werden.

Unterstützte Regionen

BigQuery ML wird in denselben Regionen wie BigQuery unterstützt. Eine vollständige Liste der unterstützten Regionen und Multiregionen finden Sie auf der Seite Standorte.

Kontingente

Für Abfragen, die BigQuery ML-Funktionen und CREATE MODEL-Anweisungen verwenden, gelten neben den BigQuery ML-spezifischen Limits die Kontingente und Limits für BigQuery-Abfragejobs.

Weitere Informationen zu den BigQuery ML-Kontingenten und -Limits finden Sie unter Kontingente und Limits.

Preis

BigQuery ML-Modelle werden genauso wie Tabellen und Ansichten in BigQuery-Datasets gespeichert. Weitere Informationen zu den Preisen für BigQuery ML finden Sie unter BigQuery ML-Preise.

Informationen zu den Preisen für die BigQuery-Speicherung finden Sie unter Speicherpreise. Informationen zu den Preisen für BigQuery ML-Abfragen finden Sie unter Abfragepreise.

Ressourcen

Weitere Informationen zum maschinellen Lernen und zu BigQuery ML finden Sie in folgenden Ressourcen:

Weitere Informationen