Présentation de BigQuery ML

Aperçu

BigQuery ML permet de créer et d'exécuter des modèles de machine learning dans BigQuery à l'aide de requêtes SQL standards. BigQuery ML démocratise le machine learning en permettant aux utilisateurs de SQL de mettre à profit leurs propres compétences et outils SQL pour créer des modèles. BigQuery ML accélère le développement en éliminant le besoin de déplacer des données.

La fonctionnalité BigQuery ML est intégrée aux outils suivants :

  • Google Cloud Console
  • Outil de ligne de commande bq
  • L'API REST BigQuery
  • Un outil externe tel qu'un ordinateur ultraportable Jupyter ou une plate-forme de veille stratégique

Le machine learning sur des ensembles de données volumineux nécessite une programmation importante et une connaissance approfondie des structures ML. Ces exigences restreignent le développement de solutions à un très petit nombre de personnes au sein de chaque entreprise et excluent les analystes de données qui comprennent les données mais qui ont des connaissances limitées en matière de machine learning et qui ne sont pas des experts en programmation.

BigQuery ML permet aux analystes de données d'utiliser le machine learning avec leurs propres compétences et outils SQL. Ils peuvent utiliser BigQuery ML pour créer et évaluer des modèles de ML dans BigQuery. Les analystes n'ont pas besoin d'exporter de petites quantités de données vers des feuilles de calcul ou d'autres applications, ni d'attendre des ressources limitées de la part de l'équipe de data scientists.

Modèles compatibles avec BigQuery ML

Un modèle dans BigQuery ML représente ce qu'un système de ML a appris à partir des données d'entraînement.

BigQuery ML est compatible avec les types de modèles suivants :

  • Régression linéaire pour la prévision (par exemple, prévoir les ventes d'un article un jour donné). Les étiquettes ont une valeur réelle (elles ne peuvent pas avoir la valeur "+/-Infinity" ni "NaN").
  • Régression logistique binaire pour la classification (par exemple, déterminer si un client va effectuer un achat). Les étiquettes ne doivent avoir que deux valeurs possibles.
  • Régression logistique multiclasses pour la classification. Ces modèles permettent de prédire plusieurs valeurs possibles (par exemple, si une entrée est une "valeur faible", une "valeur moyenne" ou une "valeur élevée"). Chaque étiquette peut contenir jusqu'à 50 valeurs uniques. Dans BigQuery ML, l'entraînement par régression logistique multiclasses utilise un classifieur multinomial doté d'une fonction de perte d'entropie croisée.
  • Clustering des k-moyennes pour la segmentation des données (par exemple, pour identifier des segments de clientèle). L’algorithme k-moyennes étant une technique d'apprentissage non supervisée, l'entraînement ou l'évaluation du modèle ne nécessitent pas d'étiquettes ni de données fractionnées.
  • Factorisation matricielle pour créer des systèmes de recommandation de produits. Vous pouvez créer des recommandations de produits à l'aide de l'historique du comportement des clients, des transactions et des avis sur les produits, puis utiliser ces recommandations pour proposer des expériences client personnalisées.
  • Série temporelle pour effectuer des prévisions de séries temporelles. Cette fonctionnalité vous permet de créer des millions de modèles de série temporelle et de les utiliser pour effectuer des prévisions. Le modèle gère automatiquement les anomalies, la saisonnalité et les jours fériés.
  • Arbre de décision à boosting pour créer des modèles de classification et de régression basés sur XGBoost.
  • Réseau de neurones profond (DNN, Deep Neural Network) pour créer des réseaux de neurones profonds basés sur TensorFlow pour les modèles de classification et de régression.
  • AutoML Tables pour créer des modèles de pointe sans extraction de caractéristiques ni sélection de modèle. AutoML Tables identifie le meilleur modèle parmi différentes architectures de modèle.
  • Importation du modèle TensorFlow. Cette fonctionnalité vous permet de créer des modèles BigQuery ML à partir de modèles TensorFlow préalablement entraînés, puis d'effectuer des prédictions dans BigQuery ML.

Dans BigQuery ML, vous pouvez utiliser un modèle avec des données provenant de plusieurs ensembles de données BigQuery pour les opérations d'entraînement et de prédiction.

Avantages de BigQuery ML

BigQuery ML présente les avantages suivants par rapport aux autres méthodes d'utilisation du ML avec un entrepôt de données cloud :

  • BigQuery ML démocratise l'utilisation du ML en permettant aux analystes de données, les principaux utilisateurs des entrepôts de données, de créer et d'exécuter des modèles à l'aide de leurs propres outils et feuilles de calcul de veille stratégique. Les analyses prédictives peuvent guider la prise de décisions commerciales dans l'ensemble de l'entreprise.
  • Il n'est pas nécessaire de programmer une solution de ML à l'aide de Python ou Java. Les modèles sont entraînés et accessibles dans BigQuery à l'aide de SQL, un langage connu des analystes de données.
  • BigQuery ML accélère l'innovation et le développement des modèles en évitant d'exporter des données depuis l'entrepôt de données. Au lieu de cela, BigQuery ML amène le ML aux données. Les besoins d'exportation et de reformatage des données présentent les inconvénients suivants :

    • Ils accentuent la complexité, car plusieurs outils sont requis.
    • Ils réduisent la vitesse, car le déplacement et le formatage de grandes quantités de données pour les frameworks ML basés sur Python requièrent plus de temps que l'entraînement de modèles dans BigQuery.
    • exigent plusieurs étapes pour exporter des données depuis l'entrepôt, ce qui limite la possibilité de tester vos données ;
    • Ils peuvent être entravés par des restrictions légales (telles que les directives HIPAA).

Régions où le service est disponible

BigQuery ML est compatible avec les mêmes régions que BigQuery. Consultez la page Emplacements pour obtenir la liste complète des emplacements régionaux et multirégionaux compatibles.

Quotas

Outre les limites spécifiques à BigQuery ML, les requêtes qui utilisent les fonctions BigQuery ML et les instructions CREATE MODEL sont soumises aux quotas et aux limites des tâches de requête BigQuery.

Pour en savoir plus sur l'ensemble des quotas et limites de BigQuery ML, consultez la page Quotas et limites.

Prix

Les modèles BigQuery ML sont stockés dans des ensembles de données BigQuery tels que des tables et des vues. Pour en savoir plus sur la tarification de BigQuery ML, consultez la page Tarifs de BigQuery ML.

Pour en savoir plus sur la tarification du stockage BigQuery, consultez la section Tarifs de stockage. Pour en savoir plus sur la tarification des requêtes BigQuery ML, consultez la section Tarifs des requêtes.

Resources

Pour en savoir plus sur le machine learning et BigQuery ML, consultez les ressources suivantes :

Étapes suivantes