Présentation de BigQuery ML

Présentation

BigQuery ML permet aux utilisateurs de créer et d'exécuter des modèles de machine learning dans BigQuery à l'aide de requêtes SQL standard. BigQuery ML démocratise le machine learning en permettant aux utilisateurs de SQL de mettre à profit leurs compétences et outils SQL actuels pour créer des modèles. BigQuery ML accélère le développement en éliminant le besoin de déplacer des données.

La fonctionnalité BigQuery ML est intégrée aux outils suivants :

  • L'UI Web de BigQuery
  • L'outil de ligne de commande bq
  • L'API REST BigQuery
  • Un outil externe tel qu'un ordinateur ultraportable Jupyter ou une plate-forme de veille stratégique

Le machine learning sur des ensembles de données volumineux nécessite une programmation importante et une connaissance approfondie des structures ML. Ces exigences restreignent le développement de solutions à un très petit nombre de personnes au sein de chaque entreprise et excluent les analystes de données qui comprennent les données mais qui ont des connaissances limitées en matière de machine learning et qui ne sont pas des experts en programmation.

BigQuery ML permet aux analystes de données d'utiliser le machine learning avec leurs propres compétences et outils SQL. Ils peuvent utiliser BigQuery ML pour créer et évaluer des modèles de ML dans BigQuery. Et ils n'ont plus besoin d'exporter de petites quantités de données vers des feuilles de calcul ou d'autres applications, ni d'attendre des ressources limitées de la part de l'équipe de data scientists.

Modèles compatibles avec BigQuery ML

Un modèle dans BigQuery ML représente ce qu'un système de ML a appris à partir des données d'entraînement.

Les types de modèles suivants sont compatibles avec BigQuery ML :

  • Régression linéaire pour la prévision (par exemple, prévoir les ventes d'un article un jour donné). Les étiquettes ont une valeur réelle (elles ne peuvent pas avoir la valeur "+/-Infinity" ni "NaN").
  • Régression logistique binaire pour la classification (par exemple, déterminer si un client va effectuer un achat). Les étiquettes ne doivent avoir que deux valeurs possibles.
  • Régression logistique multiclasses pour la classification. Ces modèles peuvent être utilisés pour prédire plusieurs valeurs possibles, par exemple une "faible valeur", une "valeur moyenne" ou une "valeur élevée". Les étiquettes peuvent avoir jusqu'à 50 valeurs uniques. Dans BigQuery ML, l'entraînement par régression logistique multiclasses utilise un classifieur multinomial doté d'une fonction de perte d'entropie croisée.
  • Mise en cluster des k-moyennes pour la segmentation des données (bêta) (par exemple, identifier des segments de clientèle). L’algorithme k-moyennes étant une technique d'apprentissage non supervisée, l'entraînement ou l'évaluation du modèle ne nécessitent pas d'étiquettes ni de données fractionnées.

Dans BigQuery ML, un modèle peut être utilisé avec les données de plusieurs ensembles de données BigQuery pour l'entraînement et la prédiction.

Avantages de BigQuery ML

BigQuery ML présente les avantages suivants par rapport aux autres méthodes d'utilisation du ML avec un entrepôt de données cloud :

  • BigQuery ML démocratise l'utilisation du ML en permettant aux analystes de données, les principaux utilisateurs des entrepôts de données, de créer et d'exécuter des modèles à l'aide de leurs propres outils et feuilles de calcul de veille stratégique. Cela facilite la prise de décisions commerciales au sein de l'entreprise grâce à l'analyse prédictive.
  • Il n'est pas nécessaire de programmer une solution de ML à l'aide de Python ou Java. Les modèles sont entraînés et accessibles dans BigQuery à l'aide de SQL, un langage connu des analystes de données.
  • BigQuery ML accélère l'innovation et le développement des modèles en évitant d'exporter des données depuis l'entrepôt de données. Au lieu de cela, BigQuery ML amène le ML aux données. L'exportation et le reformatage des données :

    • augmentent la complexité : plusieurs outils sont nécessaires ;
    • réduisent la vitesse : le déplacement et le formatage de grandes quantités de données pour les frameworks ML basés sur Python requièrent plus de temps que l'entraînement de modèles dans BigQuery ;
    • exigent plusieurs étapes pour exporter des données depuis l'entrepôt, ce qui limite la possibilité de tester vos données ;
    • peuvent être entravés par des restrictions légales (telles que les directives HIPAA) ;

Régions où le service est disponible

Tout comme BigQuery, BigQuery ML est une ressource multirégionale. Ce service est disponible dans les mêmes régions que BigQuery.

La localité des données est spécifiée lorsque vous créez un ensemble de données pour stocker vos données d'entraînement et vos modèles BigQuery ML. BigQuery ML traite et classe les données dans le même emplacement que l'ensemble de données cible.

Quotas

Outre les limites spécifiques à BigQuery ML, les requêtes qui utilisent les fonctions BigQuery ML et les instructions CREATE MODEL sont soumises aux quotas et aux limites des tâches de requête BigQuery

Pour en savoir plus sur tous les quotas et limites BigQuery ML, consultez la page Quotas et limites.

Prix

Les modèles BigQuery ML sont stockés dans des ensembles de données BigQuery tels que des tables et des vues. Lorsque vous créez et utilisez des modèles dans BigQuery ML, vos frais sont basés sur la quantité de données utilisées pour entraîner un modèle et sur les requêtes que vous exécutez sur les données.

Pour en savoir plus sur la tarification de BigQuery ML, consultez la page Tarifs de BigQuery ML. Pour en savoir plus sur la tarification du stockage BigQuery, consultez la section Tarifs de stockage. Pour en savoir plus sur la tarification des requêtes BigQuery ML, consultez la section Tarifs des requêtes.

Ressources

Pour en savoir plus sur le machine learning et BigQuery ML, consultez les éléments suivants :

Étape suivante

Cette page vous a-t-elle été utile ? Évaluez-la :

Envoyer des commentaires concernant…

Documentation sur BigQuery ML