Effectuer des prédictions à l'aide de modèles scikit-learn au format ONNX


Ce tutoriel vous explique comment importer un modèle Open Neural Network Exchange (ONNX) entraîné avec scikit-learn. Vous importez le modèle dans un ensemble de données BigQuery et l'utilisez pour effectuer des prédictions à l'aide d'une requête SQL.

ONNX fournit un format uniforme conçu pour représenter tous les frameworks de machine learning (ML). La compatibilité de BigQuery ML avec ONNX vous permet de:

  • Entraîner un modèle à l'aide du framework de votre choix
  • Convertir le modèle au format ONNX
  • Importer le modèle ONNX dans BigQuery et effectuer des prédictions à l'aide de BigQuery ML

Objectifs

  • créer et entraîner un modèle à l'aide de scikit-learn ;
  • Convertir le modèle au format ONNX à l'aide de sklearn-onnx.
  • Utilisez l'instruction CREATE MODEL pour importer le modèle ONNX dans BigQuery.
  • Utilisez la fonction ML.PREDICT pour effectuer des prédictions avec le modèle ONNX importé.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Une fois que vous avez terminé les tâches décrites dans ce document, vous pouvez éviter de continuer à payer des frais en supprimant les ressources que vous avez créées. Pour en savoir plus, consultez la section Effectuer un nettoyage.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  4. Make sure that billing is enabled for your Google Cloud project.

  5. Enable the BigQuery and Cloud Storage APIs.

    Enable the APIs

  6. Assurez-vous de disposer des autorisations nécessaires pour effectuer les tâches décrites dans ce document.

Rôles requis

Si vous créez un projet, vous en êtes le propriétaire et vous disposez de toutes les autorisations IAM (Identity and Access Management) requises pour suivre ce tutoriel.

Si vous utilisez un projet existant, procédez comme suit.

Make sure that you have the following role or roles on the project:

Check for the roles

  1. In the Google Cloud console, go to the IAM page.

    Go to IAM
  2. Select the project.
  3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

  4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.

Grant the roles

  1. In the Google Cloud console, go to the IAM page.

    Accéder à IAM
  2. Sélectionnez le projet.
  3. Cliquez sur Accorder l'accès.
  4. Dans le champ Nouveaux comptes principaux, saisissez votre identifiant utilisateur. Il s'agit généralement de l'adresse e-mail d'un compte Google.

  5. Dans la liste Sélectionner un rôle, sélectionnez un rôle.
  6. Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez chaque rôle supplémentaire.
  7. Cliquez sur Enregistrer.
  8. Pour en savoir plus sur les autorisations IAM dans BigQuery, consultez la page Autorisations IAM.

Facultatif: Entraîner un modèle et le convertir au format ONNX

Les exemples de code suivants vous montrent comment entraîner un modèle de classification avec scikit-learn et comment convertir le pipeline obtenu au format ONNX. Ce tutoriel utilise un exemple de modèle prédéfini stocké à l'emplacement gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx. Vous n'avez pas besoin d'effectuer ces étapes si vous utilisez l'exemple de modèle.

Entraîner un modèle de classification à l'aide de scikit-learn

Utilisez l'exemple de code suivant pour créer et entraîner un pipeline scikit-learn sur l'ensemble de données Iris. Pour obtenir des instructions sur l'installation et l'utilisation de scikit-learn, consultez le guide d'installation de scikit-learn.

import numpy
from sklearn.datasets import load_iris
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier

data = load_iris()
X = data.data[:, :4]
y = data.target

ind = numpy.arange(X.shape[0])
numpy.random.shuffle(ind)
X = X[ind, :].copy()
y = y[ind].copy()

pipe = Pipeline([('scaler', StandardScaler()),
                ('clr', RandomForestClassifier())])
pipe.fit(X, y)

Convertir le pipeline en modèle ONNX

Utilisez l'exemple de code suivant dans sklearn-onnx pour convertir le pipeline scikit-learn en un modèle ONNX nommé pipeline_rf.onnx.

from skl2onnx import convert_sklearn
from skl2onnx.common.data_types import FloatTensorType

# Disable zipmap as it is not supported in BigQuery ML.
options = {id(pipe): {'zipmap': False}}

# Define input features. scikit-learn does not store information about the
# training dataset. It is not always possible to retrieve the number of features
# or their types. That's why the function needs another argument called initial_types.
initial_types = [
   ('sepal_length', FloatTensorType([None, 1])),
   ('sepal_width', FloatTensorType([None, 1])),
   ('petal_length', FloatTensorType([None, 1])),
   ('petal_width', FloatTensorType([None, 1])),
]

# Convert the model.
model_onnx = convert_sklearn(
   pipe, 'pipeline_rf', initial_types=initial_types, options=options
)

# And save.
with open('pipeline_rf.onnx', 'wb') as f:
 f.write(model_onnx.SerializeToString())

Importer le modèle ONNX dans Cloud Storage

Après avoir enregistré votre modèle, procédez comme suit:

Créer un ensemble de données

Créez un ensemble de données BigQuery pour stocker votre modèle de ML.

Console

  1. Dans la console Google Cloud, accédez à la page BigQuery.

    Accéder à la page "BigQuery"

  2. Dans le volet Explorateur, cliquez sur le nom de votre projet.

  3. Cliquez sur Afficher les actions > Créer un ensemble de données.

    Option de menu "Créer un ensemble de données".

  4. Sur la page Créer un ensemble de données, procédez comme suit :

    • Dans le champ ID de l'ensemble de données, saisissez bqml_tutorial.

    • Pour Type d'emplacement, sélectionnez Multirégional, puis sélectionnez US (plusieurs régions aux États-Unis).

    Les ensembles de données publics sont stockés dans l'emplacement multirégional US. Par souci de simplicité, stockez votre ensemble de données dans le même emplacement.

    • Conservez les autres paramètres par défaut, puis cliquez sur Créer un ensemble de données.

    Page "Créer un ensemble de données" avec les valeurs renseignées

bq

Pour créer un ensemble de données, exécutez la commande bq mk en spécifiant l'option --location. Pour obtenir la liste complète des paramètres possibles, consultez la documentation de référence sur la commande bq mk --dataset.

  1. Créez un ensemble de données nommé bqml_tutorial avec l'emplacement des données défini sur US et une description de BigQuery ML tutorial dataset:

    bq --location=US mk -d \
     --description "BigQuery ML tutorial dataset." \
     bqml_tutorial

    Au lieu d'utiliser l'option --dataset, la commande utilise le raccourci -d. Si vous omettez -d et --dataset, la commande crée un ensemble de données par défaut.

  2. Vérifiez que l'ensemble de données a été créé:

    bq ls

API

Appelez la méthode datasets.insert avec une ressource d'ensemble de données définie.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Importer le modèle ONNX dans BigQuery

Les étapes suivantes vous expliquent comment importer l'exemple de modèle ONNX depuis Cloud Storage à l'aide d'une instruction CREATE MODEL.

Pour importer le modèle ONNX dans votre ensemble de données, sélectionnez l'une des options suivantes:

Console

  1. Dans la console Google Cloud, accédez à la page BigQuery Studio.

    Accéder à BigQuery Studio

  2. Dans l'éditeur de requêtes, saisissez l'instruction CREATE MODEL suivante.

     CREATE OR REPLACE MODEL `bqml_tutorial.imported_onnx_model`
      OPTIONS (MODEL_TYPE='ONNX',
       MODEL_PATH='BUCKET_PATH')

    Remplacez BUCKET_PATH par le chemin d'accès au modèle que vous avez importé dans Cloud Storage. Si vous utilisez l'exemple de modèle, remplacez BUCKET_PATH par la valeur suivante : gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx.

    Une fois l'opération terminée, un message semblable à Successfully created model named imported_onnx_model s'affiche.

    Votre nouveau modèle s'affiche dans le panneau Ressources. Les modèles sont indiqués par l'icône du modèle : Icône du modèle dans le panneau "Ressources" Si vous sélectionnez le nouveau modèle dans le panneau Ressources, les informations sur le modèle s'affichent à côté de l'éditeur de requête.

    Panneau d'informations pour "imported_onnx_model"

bq

  1. Importez le modèle ONNX à partir de Cloud Storage en saisissant l'instruction CREATE MODEL suivante.

    bq query --use_legacy_sql=false \
    "CREATE OR REPLACE MODEL
    `bqml_tutorial.imported_onnx_model`
    OPTIONS
    (MODEL_TYPE='ONNX',
      MODEL_PATH='BUCKET_PATH')"

    Remplacez BUCKET_PATH par le chemin d'accès au modèle que vous avez importé dans Cloud Storage. Si vous utilisez l'exemple de modèle, remplacez BUCKET_PATH par la valeur suivante : gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx.

    Une fois l'opération terminée, un message semblable à Successfully created model named imported_onnx_model s'affiche.

  2. Une fois le modèle importé, vérifiez qu'il apparaît dans l'ensemble de données.

    bq ls bqml_tutorial

    Le résultat ressemble à ce qui suit :

    tableId               Type
    --------------------- -------
    imported_onnx_model  MODEL

BigQuery DataFrames

Avant d'essayer cet exemple, suivez les instructions de configuration pour BigQuery DataFrames du guide de démarrage rapide de BigQuery DataFrames. Pour en savoir plus, consultez la documentation de référence sur BigQuery DataFrames.

Pour vous authentifier auprès de BigQuery, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'ADC pour un environnement de développement local.

Importez le modèle à l'aide de l'objet ONNXModel.

import bigframes
from bigframes.ml.imported import ONNXModel

bigframes.options.bigquery.project = PROJECT_ID
# You can change the location to one of the valid locations: https://cloud.google.com/bigquery/docs/locations#supported_locations
bigframes.options.bigquery.location = "US"

imported_onnx_model = ONNXModel(
    model_path="gs://cloud-samples-data/bigquery/ml/onnx/pipeline_rf.onnx"
)

Pour en savoir plus sur l'importation de modèles ONNX dans BigQuery, y compris sur les exigences en matière de format et de stockage, consultez la page Instruction CREATE MODEL pour l'importation de modèles ONNX.

Effectuer des prédictions à l'aide du modèle ONNX importé

Après avoir importé le modèle ONNX, vous utilisez la fonction ML.PREDICT pour effectuer des prédictions avec le modèle.

La requête des étapes suivantes utilise imported_onnx_model pour effectuer des prédictions à l'aide des données d'entrée de la table iris de l'ensemble de données public ml_datasets. Le modèle ONNX s'attend à quatre valeurs FLOAT en entrée:

  • sepal_length
  • sepal_width
  • petal_length
  • petal_width

Ces entrées correspondent aux initial_types définies lorsque vous avez converti le modèle au format ONNX.

Les sorties incluent les colonnes label et probabilities, ainsi que les colonnes de la table d'entrée. label représente l'étiquette de classe prédite. probabilities est un tableau de probabilités représentant les probabilités de chaque classe.

Pour effectuer des prédictions avec le modèle TensorFlow importé, choisissez l'une des options suivantes:

Console

  1. Accédez à la page BigQuery Studio.

    Accéder à BigQuery Studio

  2. Dans l'éditeur de requêtes, saisissez cette requête qui utilise la fonction ML.PREDICT.

    SELECT *
      FROM ML.PREDICT(MODEL `bqml_tutorial.imported_onnx_model`,
        (
        SELECT * FROM `bigquery-public-data.ml_datasets.iris`
        )
    )

    Les résultats de la requête sont semblables à ceux-ci:

    Résultat de la requête ML.PREDICT

bq

Exécutez la requête qui utilise ML.PREDICT.

bq query --use_legacy_sql=false \
'SELECT *
FROM ML.PREDICT(
MODEL `example_dataset.imported_onnx_model`,
(SELECT * FROM `bigquery-public-data.ml_datasets.iris`))'

BigQuery DataFrames

Avant d'essayer cet exemple, suivez les instructions de configuration pour BigQuery DataFrames du guide de démarrage rapide de BigQuery DataFrames. Pour en savoir plus, consultez la documentation de référence sur BigQuery DataFrames.

Pour vous authentifier auprès de BigQuery, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'ADC pour un environnement de développement local.

Utilisez la fonction predict pour exécuter le modèle distant.

import bigframes.pandas as bpd

df = bpd.read_gbq("bigquery-public-data.ml_datasets.iris")
predictions = imported_onnx_model.predict(df)
predictions.peek(5)

Le résultat ressemble à ce qui suit :

Sortie de la fonction de prédiction

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Supprimer le projet

Console

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

gcloud

    Delete a Google Cloud project:

    gcloud projects delete PROJECT_ID

Supprimer des ressources individuelles

Vous pouvez également supprimer les ressources individuelles utilisées dans ce tutoriel:

  1. Supprimez le modèle importé.

  2. Facultatif: Supprimez l'ensemble de données.

Étape suivante