Utiliser BigQuery ML pour prédire le poids du manchot

Ce tutoriel présente BigQuery ML aux analystes de données. BigQuery ML permet aux utilisateurs de créer et d'exécuter des modèles de machine learning dans BigQuery à l'aide de requêtes SQL. L'objectif est de démocratiser le machine learning en permettant aux utilisateurs SQL de créer des modèles à l'aide de leurs propres outils et d'accélérer le rythme de développement en leur évitant d'avoir à transférer des données.

Dans ce tutoriel, vous allez utiliser la table penguin pour créer un modèle capable de prédire le poids d'un manchot en fonction des espèces de manchots, de l'île de résidence, de la longueur et la profondeur du culmen, la longueur des nageoires et le sexe.

Objectifs

Dans ce tutoriel, vous allez utiliser :

  • BigQuery ML pour créer un modèle de régression linéaire à l'aide de l'instruction CREATE MODEL ;
  • la fonction ML.EVALUATE pour évaluer le modèle de ML ;
  • la fonction ML.PREDICT pour effectuer des prédictions à l'aide du modèle de ML.

Coûts

Ce tutoriel utilise des composants facturables de Cloud Platform, y compris :

  • BigQuery
  • BigQuery ML

Pour en savoir plus sur le coût de BigQuery, consultez la page Tarifs de BigQuery.

Pour en savoir plus sur le coût de BigQuery ML, consultez la page Tarifs de BigQuery ML.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Assurez-vous que la facturation est activée pour votre projet Cloud. Découvrez comment vérifier que la facturation est activée pour votre projet.

  4. BigQuery est automatiquement activé dans les nouveaux projets. Pour activer BigQuery dans un projet préexistant, accédez à Activez l'API BigQuery.

    Activer l'API

Étape 1 : Créer un ensemble de données

La première étape consiste à créer un ensemble de données BigQuery afin de stocker votre modèle de ML. Procédez comme suit :

  1. Dans Cloud Console, accédez à la page BigQuery.

    Accéder à BigQuery

  2. Dans la section Ressources du panneau de navigation, cliquez sur le nom du projet.

  3. Dans le panneau "Détails" situé à droite, cliquez sur Créer un ensemble de données.

    Créer l'ensemble de données

  4. Sur la page Create dataset (Créer un ensemble de données), procédez comme suit :

    • Dans le champ Dataset ID (ID de l'ensemble de données), saisissez bqml_tutorial.
    • Dans le champ Data location (Emplacement des données), sélectionnez United States (US) (États-Unis). Les ensembles de données publics sont actuellement stockés dans l'emplacement multirégional US. Par souci de simplicité, vous devez placer votre ensemble de données dans la même zone.

      Créer une page d'ensemble de données

  5. Ne modifiez aucun autre paramètre par défaut et cliquez sur Créer un ensemble de données.

Étape 2 : Créer un modèle

Vous allez ensuite créer un modèle de régression linéaire à l'aide de la table des manchots pour BigQuery. La requête en SQL standard présentée ci-dessous permet de créer le modèle dont vous vous servez pour prédire le poids d'un manchot.

#standardSQL
CREATE MODEL `bqml_tutorial.penguins_model`
OPTIONS
  (model_type='linear_reg',
  input_label_cols=['body_mass_g']) AS
SELECT
  *
FROM
  `bigquery-public-data.ml_datasets.penguins`
WHERE
  body_mass_g IS NOT NULL

En plus de créer le modèle, l'exécution de la commande CREATE MODEL entraîne le modèle que vous créez.

Détails de la requête

La clause CREATE MODEL permet de créer et d'entraîner le modèle nommé bqml_tutorial.penguins_model.

La clause OPTIONS(model_type='linear_reg', input_label_cols=['body_mass_g']) indique que vous créez un modèle de régression linéaire. Une régression linéaire est un type de modèle de régression qui génère une valeur continue à partir d'une combinaison linéaire de caractéristiques en entrée. La colonne body_mass_g correspond à la colonne de l'étiquette d'entrée. Pour les modèles de régression linéaire, la colonne de libellé doit être renseignée avec des valeurs réelles (les valeurs de la colonne doivent être des nombres réels).

L'instruction SELECT de cette requête utilise toutes les colonnes de la table bigquery-public-data.ml_datasets.penguins. Cette table contient les colonnes suivantes qui seront toutes utilisées pour prédire le poids d'un manchot :

  • species : espèces de manchots (STRING).
  • island : île où réside le manchot (STRING).
  • culmen_length_mm : longueur du culmen en millimètres (FLOAT64).
  • culmen_depth_mm : profondeur du culmen en millimètres (FLOAT64).
  • flipper_length_mm : longueur de la nageoire en millimètres (FLOAT64).
  • sex : sexe du manchot (STRING).

La clause FROM, bigquery-public-data.ml_datasets.penguins, indique que vous interrogez la table ml_datasets de l'ensemble de données . Cet ensemble de données se trouve dans le projet bigquery-public-data.

La clause WHERE, WHERE body_mass_g IS NOT NULL, exclut les lignes dont le corps_mass_g est NULL.

Exécuter la requête CREATE MODEL

Pour exécuter la requête CREATE MODEL qui permet de créer et d'entraîner votre modèle, procédez comme suit :

  1. Dans Cloud Console, cliquez sur le bouton Saisir une nouvelle requête.

  2. Saisissez la requête suivante en SQL standard dans la zone de texte Éditeur de requête.

    #standardSQL
    CREATE MODEL `bqml_tutorial.penguins_model`
    OPTIONS
      (model_type='linear_reg',
        input_label_cols=['body_mass_g']) AS
    SELECT
      *
    FROM
      `bigquery-public-data.ml_datasets.penguins`
    WHERE
      body_mass_g IS NOT NULL
    
  3. Cliquez sur Run (Exécuter).

    L'exécution de la requête prend environ 30 secondes, puis votre modèle (penguins_model) s'affiche dans le panneau de navigation. Étant donné que la requête utilise une instruction CREATE MODEL pour créer une table, les résultats de la requête ne sont pas affichés.

(Facultatif) Étape 3 : Obtenir des statistiques d'entraînement

Pour afficher les résultats de l'entraînement du modèle, vous pouvez utiliser la fonction ML.TRAINING_INFO ou afficher les statistiques dans Cloud Console. Dans ce tutoriel, vous utilisez Cloud Console.

Pour créer un modèle, un algorithme de machine learning examine de nombreux exemples et essaie de trouver un modèle qui minimise la perte. Ce processus est appelé "minimisation du risque empirique".

La perte est la pénalité liée à une mauvaise prédiction. Ce nombre indique à quel point la prédiction du modèle est fausse pour un exemple donné. Si la prédiction du modèle est parfaite, la perte est nulle. Sinon, la perte est supérieure à zéro. L'objectif de l'entraînement d'un modèle est de trouver un ensemble de pondérations et de biais présentant une faible perte pour tous les exemples (en moyenne).

Pour afficher les statistiques d'entraînement du modèle qui ont été générées lors de l'exécution de la requête CREATE MODEL, procédez comme suit :

  1. Dans le panneau de navigation de Cloud Console, dans la section Ressources, développez [PROJECT_ID] > bqml_tutorial, puis cliquez sur penguins_model.

  2. Cliquez sur l'onglet Training (Entraînement), puis sur Table. Les résultats doivent se présenter sous la forme suivante :

    Résultat ML.TRAINING_INFO

    La colonne Training Data Loss (Perte de données d'entraînement) représente la métrique de perte calculée après entraînement du modèle dans l'ensemble de données d'entraînement. Étant donné que vous avez effectué une régression linéaire, cette colonne correspond à l'erreur quadratique moyenne. La stratégie d'optimisation "normal_equation" est automatiquement utilisée ici pour l'entraînement. Une seule itération suffit donc pour converger vers le modèle final. Pour plus d'informations sur l'option optimize_strategy, reportez-vous à l'instruction CREATE MODEL.

    Pour en savoir plus sur la fonction ML.TRAINING_INFO et sur l'option d'entraînement "optimize_strategy", consultez la documentation de référence sur la syntaxe BigQuery ML.

Étape 4 : Évaluer le modèle

Après avoir créé votre modèle, vous évaluez ses performances à l'aide de la fonction ML.EVALUATE. La fonction ML.EVALUATE compare les valeurs estimées aux données réelles.

La requête permettant d'évaluer le modèle est la suivante :

#standardSQL
SELECT
  *
FROM
  ML.EVALUATE(MODEL `bqml_tutorial.penguins_model`,
    (
    SELECT
      *
    FROM
      `bigquery-public-data.ml_datasets.penguins`
    WHERE
      body_mass_g IS NOT NULL))

Détails des requêtes

La toute première instruction SELECT récupère les colonnes de votre modèle.

La clause FROM utilise la fonction ML.EVALUATE basée sur votre modèle : bqml_tutorial.penguins_model.

L'instruction SELECT et la clause FROM imbriquées de cette requête sont identiques à celles de la requête CREATE MODEL.

La clause WHERE, WHERE body_mass_g IS NOT NULL, exclut les lignes dont le corps_mass_g est NULL.

Vous pouvez également appeler la fonction ML.EVALUATE sans fournir les données d'entrée. Les métriques d'évaluation calculées au cours de l'entraînement seront alors utilisées :

#standardSQL
SELECT
  *
FROM
  ML.EVALUATE(MODEL `bqml_tutorial.penguins_model`)

Exécuter la requête ML.EVALUATE

Pour exécuter la requête ML.EVALUATE permettant d'évaluer le modèle, procédez comme suit :

  1. Dans Cloud Console, cliquez sur le bouton Saisir une nouvelle requête.

  2. Saisissez la requête suivante en SQL standard dans la zone de texte Éditeur de requête.

    #standardSQL
    SELECT
      *
    FROM
      ML.EVALUATE(MODEL `bqml_tutorial.penguins_model`,
        (
        SELECT
          *
        FROM
          `bigquery-public-data.ml_datasets.penguins`
        WHERE
          body_mass_g IS NOT NULL))
    
  3. (Facultatif) Pour définir l'emplacement de traitement, cliquez sur More > Query settings (Plus > Paramètres de requête). Pour Processing location (Emplacement de traitement), choisissez US. Cette étape est facultative, car l'emplacement de traitement est automatiquement détecté selon l'emplacement de l'ensemble de données.

    Paramètres de requête

  4. Cliquez sur Run (Exécuter).

  5. Lorsque la requête est terminée, cliquez sur l'onglet Results (Résultats) sous la zone de texte de la requête. Les résultats doivent se présenter sous la forme suivante :

    Résultat de ML.EVALUATE

    Étant donné que vous avez effectué une régression linéaire, les résultats incluent les colonnes suivantes :

    • mean_absolute_error
    • mean_squared_error
    • mean_squared_log_error
    • median_absolute_error
    • r2_score
    • explained_variance

Le score R2 est une métrique importante dans les résultats de l'évaluation. Le score R2 est une mesure statistique qui détermine si les prédictions de la régression linéaire se rapprochent des données réelles. 0 indique que le modèle n'apporte aucune explication sur la variabilité des données de réponse autour de la moyenne. 1 indique que le modèle explique toute la variabilité des données de réponse autour de la moyenne.

Étape 5 : Prédire des résultats à l'aide du modèle

Maintenant que vous avez évalué le modèle, l'étape suivante consiste à vous en servir pour prédire un résultat. Vous utilisez votre modèle pour prédire la masse corporelle en grammes de tous les manchots résidant dans Biscoe.

La requête exécutée pour prédire le résultat est la suivante :

#standardSQL
SELECT
  *
FROM
  ML.PREDICT(MODEL `bqml_tutorial.penguins_model`,
    (
    SELECT
      *
    FROM
      `bigquery-public-data.ml_datasets.penguins`
    WHERE
      body_mass_g IS NOT NULL
      AND island = "Biscoe"))

Détails de la requête

La toute première instruction SELECT récupère la colonne predicted_body_mass_g avec les colonnes de bigquery-public-data.ml_datasets.penguins. Cette colonne est générée par la fonction ML.PREDICT. Lorsque vous utilisez la fonction ML.PREDICT, le nom de la colonne de résultats pour le modèle est predicted_<label_column_name>. Pour les modèles de régression linéaire, predicted_label est la valeur estimée de label. Pour les modèles de régression logistique, predicted_label est l'une des deux étiquettes d'entrée, selon celle qui dispose de la probabilité prédite la plus élevée.

La fonction ML.PREDICT sert à prédire les résultats à l'aide de votre modèle : bqml_tutorial.penguins_model.

L'instruction SELECT et la clause FROM imbriquées de cette requête sont identiques à celles de la requête CREATE MODEL.

La clause WHERE, WHERE island = "Biscoe", indique que vous limitez la prédiction à l'île de Biscoe.

Exécuter la requête ML.PREDICT

Pour exécuter la requête permettant de prédire un résultat à l'aide votre modèle, procédez comme suit :

  1. Dans Cloud Console, cliquez sur le bouton Saisir une nouvelle requête.

  2. Saisissez la requête suivante en SQL standard dans la zone de texte Éditeur de requête.

    #standardSQL
      SELECT
        *
      FROM
        ML.PREDICT(MODEL `bqml_tutorial.penguins_model`,
          (
          SELECT
            *
          FROM
            `bigquery-public-data.ml_datasets.penguins`
          WHERE
            body_mass_g IS NOT NULL
            AND island = "Biscoe"))
    
  3. (Facultatif) Pour définir l'emplacement de traitement, cliquez sur More > Query settings (Plus > Paramètres de requête). Pour Processing location (Emplacement de traitement), choisissez US. Cette étape est facultative, car l'emplacement de traitement est automatiquement détecté selon l'emplacement de l'ensemble de données.

    Paramètres de requête

  4. Cliquez sur Run (Exécuter).

  5. Lorsque la requête est terminée, cliquez sur l'onglet Results (Résultats) sous la zone de texte de la requête. Les résultats doivent se présenter sous la forme suivante :

    Résultat de ML.PREDICT

(Facultatif) Étape 6 : Expliquer les résultats des prédictions avec des méthodes d'IA explicables

Pour comprendre pourquoi votre modèle génère ces résultats de prédiction, vous pouvez utiliser la fonction ML.EXPLAIN_PREDICT.

Pour une explication plus détaillée sur les valeurs de Shapley et les offres d'explicabilité pour d'autres modèles dans BigQuery ML, consultez la présentation de BigQuery ML Explainable AI.

La requête utilisée pour générer les explications est la suivante :

#standardSQL
SELECT
  *
FROM
  ML.EXPLAIN_PREDICT(MODEL `bqml_tutorial.penguins_model`,
    (
    SELECT
      *
    FROM
      `bigquery-public-data.ml_datasets.penguins`
    WHERE
      body_mass_g IS NOT NULL
      AND island = "Biscoe"),
    STRUCT(3 as top_k_features))

Détails de la requête

Exécuter la requête ML.EXPLAIN_PREDICT

Pour exécuter la requête ML.EXPLAIN_PREDICT qui explique le modèle, procédez comme suit :

  1. Dans Cloud Console, cliquez sur le bouton Saisir une nouvelle requête.

  2. Saisissez la requête SQL standard suivante dans la zone Éditeur de requête.

    #standardSQL
    SELECT
    *
    FROM
    ML.EXPLAIN_PREDICT(MODEL `bqml_tutorial.penguins_model`,
      (
      SELECT
        *
      FROM
        `bigquery-public-data.ml_datasets.penguins`
      WHERE
        body_mass_g IS NOT NULL
        AND island = "Biscoe"),
      STRUCT(3 as top_k_features))
    
  3. Cliquez sur Run (Exécuter).

  4. Lorsque la requête est terminée, cliquez sur l'onglet Résultats sous l'éditeur de requête. Les résultats doivent se présenter sous la forme suivante :

    Résultat de ML.EXPLAIN_PREDICT

Pour les modèles de régression linéaire, les valeurs de Shapley sont utilisées pour générer des valeurs d'attribution des caractéristiques par caractéristique dans le modèle. ML.EXPLAIN_PREDICT génère les trois premières attributions de caractéristiques par ligne de la table fournie, car top_k_features a été défini sur 3 dans la requête. Ces attributions sont triées en fonction de la valeur absolue de l'attribution par ordre décroissant. Dans la ligne 1 de cet exemple, la caractéristique sex a contribué le plus à la prédiction globale, mais pour la ligne 2 de cet exemple, island a contribué le plus à la prédiction globale.

(Facultatif) Étape 7 : Expliquer globalement votre modèle

Pour mieux comprendre pourquoi votre modèle prédit ces valeurs, vous pouvez utiliser la fonction ML.GLOBAL_EXPLAIN. Pour utiliser ML.GLOBAL_EXPLAIN, le modèle doit être réentraîné avec l'option ENABLE_GLOBAL_EXPLAIN=TRUE. Exécutez à nouveau la requête d'entraînement avec cette option à l'aide de la requête suivante :

    #standardSQL
    CREATE OR REPLACE MODEL bqml_tutorial.penguins_model
    OPTIONS
      (model_type='linear_reg',
      input_label_cols=['body_mass_g'],
      enable_global_explain=TRUE) AS
    SELECT
      *
    FROM
      bigquery-public-data.ml_datasets.penguins
    WHERE
      body_mass_g IS NOT NULL
  

Accédez à des explications globales via ML.GLOBAL_EXPLAIN

La requête utilisée pour générer des explications globales est la suivante :

#standardSQL
SELECT
  *
FROM
  ML.GLOBAL_EXPLAIN(MODEL `bqml_tutorial.penguins_model`)

Détails de la requête

Exécuter la requête ML.GLOBAL_EXPLAIN

Pour exécuter la requête ML.GLOBAL_EXPLAIN, procédez comme suit :

  1. Dans Cloud Console, cliquez sur le bouton Saisir une nouvelle requête.

  2. Saisissez la requête suivante en SQL standard dans la zone de texte Éditeur de requête.

    #standardSQL
    SELECT
    *
    FROM
    ML.GLOBAL_EXPLAIN(MODEL `bqml_tutorial.penguins_model`)
    
  3. (Facultatif) Pour définir l'emplacement de traitement, cliquez sur More > Query settings (Plus > Paramètres de requête). Pour Processing location (Emplacement de traitement), choisissez US. Cette étape est facultative, car l'emplacement de traitement est automatiquement détecté selon l'emplacement de l'ensemble de données.

    Paramètres de requête

  4. Cliquez sur Run (Exécuter).

  5. Lorsque la requête est terminée, cliquez sur l'onglet Results (Résultats) sous la zone de texte de la requête. Les résultats doivent se présenter sous la forme suivante :

    Résultat de ML.GLOBAL_EXPLAIN

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

  • Supprimez le projet que vous avez créé.
  • Ou conservez le projet et supprimez l'ensemble de données.

Supprimer l'ensemble de données

La suppression de votre projet entraîne celle de tous les ensembles de données et de toutes les tables qui lui sont associés. Si vous préférez réutiliser le projet, vous pouvez supprimer l'ensemble de données que vous avez créé dans ce tutoriel :

  1. Si nécessaire, ouvrez la page BigQuery dans Cloud Console.

    Accéder à BigQuery

  2. Dans le panneau de navigation, cliquez sur l'ensemble de données bqml_tutorial que vous avez créé.

  3. Cliquez sur Delete dataset (Supprimer l'ensemble de données) dans la partie droite de la fenêtre. Cette action supprime l'ensemble de données, la table et toutes les données.

  4. Dans la boîte de dialogue Delete dataset (Supprimer l'ensemble de données), confirmez la commande de suppression en saisissant le nom de votre ensemble de données (bqml_tutorial), puis cliquez sur Delete (Supprimer).

Supprimer le projet

Pour supprimer le projet :

  1. Dans Cloud Console, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Étape suivante