Présentation des pipelines de ML

Ce document présente les services que vous pouvez utiliser pour créer un pipeline de ML afin de gérer votre workflow MLOps BigQuery ML.

Un pipeline de ML est une représentation d'un workflow MLOps composé d'une série de tâches de pipeline. Chaque tâche de pipeline effectue une étape spécifique dans le workflow MLOps pour entraîner et déployer un modèle. La séparation de chaque étape en une tâche standardisée et réutilisable vous permet d'automatiser et de surveiller les processus reproductibles dans votre pratique du ML.

Vous pouvez utiliser l'un des services suivants pour créer des pipelines de ML BigQuery ML :

  • Utilisez Vertex AI Pipelines pour créer des pipelines de ML portables et extensibles.
  • Utilisez des requêtes GoogleSQL pour créer des pipelines de ML basés sur SQL moins complexes.
  • Utilisez Dataform pour créer des pipelines de ML plus complexes basés sur SQL, ou des pipelines de ML dans lesquels vous devez utiliser le contrôle des versions.

Vertex AI Pipelines

Dans Vertex AI Pipelines, un pipeline de ML est structuré comme un graphe orienté acyclique (DAG) de tâches de pipeline conteneurisées, qui sont connectées entre elles à l'aide de dépendances d'entrée/sortie. Une tâche de pipeline est une instanciation d'un composant de pipeline avec des entrées spécifiques. Lors de la définition de votre pipeline de ML, vous connectez plusieurs tâches de pipeline pour former un DAG en acheminant les sorties d'une tâche de pipeline vers les entrées de la tâche de pipeline suivante dans le workflow de ML. Vous pouvez également utiliser les entrées d'origine du pipeline de ML en tant qu'entrées d'une tâche de pipeline donnée.

Utiliser les composants BigQuery ML du SDK des composants de pipeline Google Cloud pour composer des pipelines de ML dans Vertex AI Pipelines. Pour commencer à utiliser les composants BigQuery ML, consultez les notebooks suivants :

Requêtes GoogleSQL

Vous pouvez utiliser le langage procédural GoogleSQL pour exécuter plusieurs instructions dans une requête à plusieurs instructions. Vous pouvez utiliser une requête à plusieurs instructions pour :

  • exécuter plusieurs requêtes à la suite, avec un état partagé ;
  • Automatiser les tâches de gestion telles que la création ou la suppression de tables.
  • mettre en œuvre une logique complexe à l'aide de boucles de programmation telles que IF et WHILE.

Après avoir créé une requête à plusieurs instructions, vous pouvez l'enregistrer et la planifier pour automatiser l'entraînement, l'inférence et la surveillance des modèles.

Si votre pipeline ML inclut l'utilisation de la fonction ML.GENERATE_TEXT, consultez la section Gérer les erreurs de quota en appelant ML.GENERATE_TEXT de manière itérative pour en savoir plus sur l'utilisation de SQL pour itérer les appels de la fonction. L'appel de la fonction de manière itérative vous permet de résoudre les erreurs renouvelables qui se produisent en raison du dépassement des quotas et des limites.

Dataform

Vous pouvez utiliser Dataform pour développer, tester, contrôler les versions et planifier des workflows SQL complexes pour la transformation de données dans BigQuery. Vous pouvez utiliser Dataform pour des tâches telles que la transformation de données dans le processus d'extraction, de chargement et de transformation (ELT) pour l'intégration des données. Une fois les données brutes extraites des systèmes sources et chargées dans BigQuery, Dataform vous aide à les transformer en une suite de tables de données bien définie, testée et documentée.

Si votre pipeline ML inclut l'utilisation de la fonction ML.GENERATE_TEXT, vous pouvez adapter l'exemple de bibliothèque structured_table_ml.js pour itérer les appels de la fonction. L'appel de la fonction de manière itérative vous permet de résoudre les erreurs renouvelables qui se produisent en raison du dépassement des quotas et des limites qui s'appliquent à la fonction.