Cette page a été traduite par l'API Cloud Translation.

Présentation de l'IA et du ML dans BigQuery

BigQuery ML vous permet de créer et d'exécuter des modèles de machine learning (ML) à l'aide de requêtes GoogleSQL ou de la console Google Cloud . Les modèles BigQuery ML sont stockés dans des ensembles de données BigQuery, comme les tables et les vues. BigQuery ML vous permet également d'accéder aux modèles Vertex AI et aux API d'IA dans le cloud pour effectuer des tâches d'intelligence artificielle (IA) comme la génération de texte ou la traduction automatique. Gemini pour Google Cloud fournit également une assistance basée sur l'IA pour les tâches BigQuery. Pour obtenir la liste des fonctionnalités basées sur l'IA dans BigQuery, consultez la page Présentation de Gemini dans BigQuery.

En règle générale, l'exécution du ML ou de l'IA sur des ensembles de données volumineux nécessite une programmation importante et une connaissance approfondie des frameworks de ML. Ces exigences restreignent le développement de solutions à un très petit nombre de personnes au sein de chaque entreprise et excluent les analystes de données qui comprennent les données, mais qui ont des connaissances limitées sur le ML et qui ne sont pas des experts en programmation. Toutefois, avec BigQuery ML, les utilisateurs de SQL peuvent utiliser les compétences et outils SQL existants pour créer et évaluer des modèles, ainsi que pour générer des résultats avec des LLM et les API d'IA dans le cloud.

Vous pouvez utiliser les fonctionnalités BigQuery ML à l'aide des éléments suivants :

L'interface utilisateur de la console Google Cloud , pour travailler avec des modèles à l'aide d'une UI. (Bêta)
L'éditeur de requête de la console Google Cloud , pour travailler avec des modèles à l'aide de requêtes SQL.
L'outil de ligne de commande bq
API REST BigQuery
Notebooks Colab Enterprise intégrés dans BigQuery
Outils externes, tels qu'un notebook Jupyter ou une plate-forme d'informatique décisionnelle

Avantages de BigQuery ML

BigQuery ML offre plusieurs avantages par rapport aux autres méthodes d'utilisation du ML ou de l'IA avec un entrepôt de données cloud :

BigQuery ML démocratise l'utilisation du ML et de l'IA en permettant aux analystes de données, les principaux utilisateurs des entrepôts de données, de créer et d'exécuter des modèles à l'aide des feuilles de calcul et des outils d'informatique décisionnelle existants. Les analyses prédictives peuvent guider la prise de décisions commerciales ou métier dans l'ensemble de l'entreprise.
Vous n'avez pas besoin de programmer une solution de ML ou d'IA à l'aide de Python ou de Java. Vous entraînez des modèles et accédez à des ressources d'IA à l'aide de SQL, un langage familier des analystes de données.
BigQuery ML accélère l'innovation et le développement des modèles en évitant de déplacer des données depuis l'entrepôt de données. Au lieu de cela, BigQuery ML apporte le ML aux données, ce qui offre les avantages suivants :
- Réduction de la complexité, car moins d'outils sont nécessaires.
- Vitesse de production accrue, car le déplacement et le formatage de grandes quantités de données pour les frameworks ML basés sur Python ne sont pas nécessaires pour entraîner un modèle dans BigQuery.
Pour en savoir plus, regardez la vidéo Comment accélérer le développement du machine learning avec BigQuery ML.

Connaissances recommandées

En utilisant les paramètres par défaut dans les instructions CREATE MODEL et les fonctions d'inférence, vous pouvez créer et utiliser des modèles BigQuery ML même si vous n'avez pas beaucoup de connaissances en ML. Toutefois, des connaissances de base sur le cycle de vie du développement du ML, comme l'extraction de caractéristiques et l'entraînement des modèles, vous aident à optimiser à la fois vos données et votre modèle pour obtenir de meilleurs résultats. Nous vous recommandons d'utiliser les ressources suivantes pour vous familiariser avec les techniques et les processus de ML :

Modèles d'IA générative et pré-entraînés

Vous pouvez utiliser les fonctionnalités BigQuery ML pour effectuer diverses tâches d'IA générative.

Utilisez des modèles distants, qui sont des modèles BigQuery ML basés sur des modèles Vertex AI, pour effectuer les tâches suivantes :
- Génération de texte à l'aide de modèles Vertex AI textuel ou multimodal
- Embedding de texte ou multimodal à l'aide des modèles d'embedding de Vertex AI
Utilisez les fonctions BigQuery ML pour effectuer les tâches suivantes :
- Générez des valeurs d'un type spécifique en utilisant des fonctions sur les modèles hébergés Vertex AI.
- Prévisions à l'aide d'une fonction sur le modèle de série temporelle TimesFM intégré à BigQuery ML.
Utilisez des modèles distants sur les API Cloud AI pour effectuer les tâches suivantes :
- Traitement du langage naturel à l'aide de l'API Cloud Natural Language
- Traduction automatique à l'aide de l'API Cloud Translation
- Traitement de documents à l'aide de l'API Document AI.
- Transcription audio à l'aide de l'API Speech-to-Text.
- Vision par ordinateur

Modèles compatibles

Un modèle dans BigQuery ML représente ce qu'un système de ML a appris à partir des données d'entraînement. Les sections suivantes décrivent les types de modèles compatibles avec BigQuery ML. Pour savoir comment créer des attributions de réservation pour les différents types de modèles, consultez Attribuer des emplacements aux charges de travail BigQuery ML.

Modèles entraînés en interne

Les modèles suivants sont intégrés à BigQuery ML :

L'analyse des contributions permet de déterminer l'effet d'une ou de plusieurs dimensions sur la valeur d'une métrique donnée. Par exemple, vous pouvez observer l'effet de l'emplacement du magasin et de la date de vente sur les revenus du magasin. Pour en savoir plus, consultez Présentation de l'analyse des contributions.
La régression linéaire permet de prédire la valeur d'une métrique numérique pour de nouvelles données à l'aide d'un modèle entraîné sur des données distantes similaires. Les étiquettes ont une valeur réelle, ce qui signifie qu'elles ne peuvent pas avoir une valeur infinie positive ou négative, ni une valeur NaN (non numérique).
Régression logistique : permet de classer au moins deux valeurs possibles (par exemple, si une entrée est low-value, medium-value ou high-value). Chaque étiquette peut contenir jusqu'à 50 valeurs uniques.
Clustering des k-moyennes : permet d'effectuer la segmentation des données. Par exemple, ce modèle identifie des segments de clientèle. Les k-moyennes étant une technique d'apprentissage non supervisée, l'entraînement ou l'évaluation du modèle ne nécessitent pas d'étiquettes ni de données fractionnées.
Factorisation matricielle : permet de créer des systèmes de recommandation de produits. Vous pouvez créer des recommandations de produits à l'aide de l'historique du comportement des clients, des transactions et des avis sur les produits, puis utiliser ces recommandations pour proposer des expériences client personnalisées.
Analyse des composants principaux (PCA) : processus consistant à calculer les composants principaux et à les utiliser pour effectuer un changement de base sur les données. Il est couramment utilisé pour réduire la dimensionnalité en ne projetant chaque point de données que sur les premiers composants principaux afin d'obtenir des données de dimension inférieure tout en conservant autant que possible les variations de données.
"Série temporelle" permet d'effectuer des prévisions de séries temporelles. Cette fonctionnalité vous permet de créer des millions de modèles de série temporelle et de les utiliser pour effectuer des prévisions. Les modèles de série temporelle ARIMA_PLUS et ARIMA_PLUS_XREG offrent plusieurs options de réglage et gèrent automatiquement les anomalies, la saisonnalité et les jours fériés.

Si vous ne souhaitez pas gérer votre propre modèle de prévision de séries temporelles, vous pouvez utiliser la fonction AI.FORECAST avec le modèle de séries temporelles TimesFM intégré à BigQuery ML (aperçu) pour effectuer des prévisions.

Vous pouvez effectuer une simulation des instructions CREATE MODEL pour les modèles entraînés en interne afin d'obtenir une estimation de la quantité de données qu'ils traiteront si vous les exécutez.

Modèles entraînés en externe

Les modèles suivants sont externes à BigQuery ML et entraînés dans Vertex AI :

Réseau de neurones profond (DNN, Deep Neural Network) : permet de créer des réseaux de neurones profonds basés sur TensorFlow pour les modèles de classification et de régression.
Large et profond : utile pour les problèmes génériques de régression et de classification à grande échelle avec des entrées éparses (caractéristiques catégorielles avec un grand nombre de valeurs de caractéristiques possibles), telles que les systèmes de recommandation, de recherche et de classement.
Autoencodeur : permet de créer des modèles basés sur TensorFlow avec des représentations de données creuses. Vous pouvez utiliser les modèles dans BigQuery ML pour des tâches telles que la détection d'anomalies non supervisée et la réduction de dimensionnalité non linéaire.
Arbre de décision à boosting : permet de créer des modèles de classification et de régression basés sur XGBoost.
Forêt d'arbres décisionnels : sert à créer plusieurs arbres de décision de la méthode d'apprentissage pour la classification, la régression et d'autres tâches au moment de l'entraînement.
AutoML est un service de ML supervisé qui crée et déploie des modèles de classification et de régression sur des données tabulaires à grande vitesse et à grande échelle.

Vous pouvez effectuer une simulation des instructions CREATE MODEL pour les modèles entraînés en externe afin d'obtenir une estimation de la quantité de données qu'ils traiteront si vous les exécutez.

Modèles distants

Vous pouvez créer des modèles distants dans BigQuery qui utilisent des modèles déployés sur Vertex AI. Pour référencer le modèle déployé, spécifiez le point de terminaison HTTPS du modèle dans l'instruction CREATE MODEL du modèle distant.

Les instructions CREATE MODEL pour les modèles distants ne traitent aucun octet et n'entraînent pas de frais BigQuery.

Modèles importés

BigQuery ML vous permet d'importer des modèles personnalisés entraînés en dehors de BigQuery, puis d'effectuer des prédictions dans BigQuery. Vous pouvez importer les modèles suivants dans BigQuery à partir de Cloud Storage :

ONNX (Open Neural Network Exchange) : format standard ouvert permettant de représenter des modèles de ML. ONNX permet de rendre des modèles entraînés avec des frameworks de ML populaires tels que PyTorch et scikit-learn disponibles dans BigQuery ML.
TensorFlow : bibliothèque logicielle Open Source gratuite pour le ML et l'intelligence artificielle. Vous pouvez utiliser TensorFlow sur plusieurs tâches, mais il est particulièrement utile sur l'entraînement et l'inférence des réseaux de neurones profonds. Vous pouvez charger des modèles TensorFlow préalablement entraînés dans BigQuery en tant que modèles BigQuery ML, puis effectuer des prédictions dans BigQuery ML.
TensorFlow Lite : version légère de TensorFlow permettant un déploiement sur des appareils mobiles, des microcontrôleurs et d'autres appareils de périphérie. TensorFlow optimise les modèles TensorFlow existants pour réduire la taille des modèles et accélérer l'inférence.
XGBoost : bibliothèque d'optimisation de gradient distribuée optimisée pour être hautement efficace, flexible et portable. Elle met en œuvre des algorithmes de ML sous le framework Gradient Boosting.

Les instructions CREATE MODEL pour les modèles importés ne traitent aucun octet et n'entraînent pas de frais BigQuery.

Dans BigQuery ML, vous pouvez utiliser un modèle avec des données provenant de plusieurs ensembles de données BigQuery pour les opérations d'entraînement et de prédiction.

Guide de sélection des modèles

Téléchargez l'arbre de décision pour la sélection de modèles.

BigQuery ML et Vertex AI

BigQuery ML s'intègre à Vertex AI, la plate-forme de bout en bout pour l'IA et le ML dans Google Cloud. Vous pouvez enregistrer vos modèles BigQuery ML dans Model Registry afin de les déployer sur des points de terminaison pour la prédiction en ligne. Pour en savoir plus, consultez les ressources suivantes :

Pour en savoir plus sur l'utilisation de vos modèles BigQuery ML avec Vertex AI, consultez la page Gérer les modèles BigQuery ML avec Vertex AI.
Si vous ne connaissez pas Vertex AI et souhaitez en savoir plus sur son intégration à BigQuery ML, consultez la page Vertex AI pour les utilisateurs de BigQuery.
Regardez la vidéo Comment simplifier les modèles d'IA avec Vertex AI et BigQuery ML.

BigQuery ML et Colab Enterprise

Vous pouvez désormais utiliser des notebooks Colab Enterprise pour effectuer des workflows de ML dans BigQuery. Les notebooks vous permettent d'utiliser SQL, Python, ainsi que d'autres bibliothèques et langages courants pour accomplir vos tâches de ML. Pour en savoir plus, consultez la page Créer des notebooks.

Régions où le service est disponible

BigQuery ML est compatible avec les mêmes régions que BigQuery. Pour en savoir plus, consultez la page Emplacements BigQuery ML.

Tarifs

Les ressources de calcul que vous utilisez pour entraîner des modèles et exécuter des requêtes sur des modèles vous sont facturées. Le type de modèle que vous créez a une incidence sur l'endroit où il est entraîné et sur les tarifs qui s'appliquent à cette opération. Les requêtes sur les modèles s'exécutent toujours dans BigQuery et utilisent la tarification du calcul BigQuery. Étant donné que les modèles distants appellent les modèles Vertex AI, les requêtes envoyées à des modèles distants entraînent également des frais Vertex AI.

Le stockage utilisé par les modèles entraînés vous est facturé selon les tarifs de stockage BigQuery.

Pour en savoir plus, consultez la page Tarifs de BigQuery ML.

Quotas

Outre les limites spécifiques à BigQuery ML, les requêtes qui utilisent les fonctions BigQuery ML et les instructions CREATE MODEL sont soumises aux quotas et aux limites des tâches de requête BigQuery.

Limites

BigQuery ML n'est pas disponible dans l'édition Standard.

Étapes suivantes

Pour commencer à utiliser BigQuery ML, consultez la page Créer des modèles de machine learning dans BigQuery ML.
Pour en savoir plus sur le machine learning et BigQuery ML, consultez les ressources suivantes :
- Cours Appliquer le machine learning à vos données avec Google Cloud sur Coursera
- Le programme d'entraînement sur l'analyse intelligente et la gestion des données
- Cours d'initiation au machine learning
- Glossaire du machine learning
Pour en savoir plus sur les MLOps avec Model Registry, consultez la page Gérer les modèles BigQuery ML dans Vertex AI.