Dans ce tutoriel, vous allez utiliser un modèle de régression logistique binaire dans BigQuery ML pour prédire la plage de revenus des personnes en fonction de leurs données démographiques. Un modèle de régression logistique binaire permet de prédire si une valeur tombe dans l'une des deux catégories, soit dans le cas présent prédire si le revenu annuel d'une personne est supérieur ou inférieur à 50 000 $.
Ce tutoriel utilise l'ensemble de données bigquery-public-data.ml_datasets.census_adult_income
. Cet ensemble de données contient les informations relatives à la démographie et aux revenus des résidents américains à partir de 2000 et de 2010.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles.
Autorisations requises
Pour créer le modèle à l'aide de BigQuery ML, vous devez disposer des autorisations IAM suivantes :
bigquery.jobs.create
bigquery.models.create
bigquery.models.getData
bigquery.models.updateData
bigquery.models.updateMetadata
Pour exécuter une inférence, vous devez disposer des autorisations suivantes :
bigquery.models.getData
sur le modèlebigquery.jobs.create
Introduction
Dans le cadre du machine learning, il est souvent nécessaire de classer les données dans l'un des deux types possibles, aussi appelés libellés. Par exemple, un marchand peut souhaiter prédire si un client donné achètera un nouveau produit, en se basant sur d'autres informations concernant ce client. Dans ce cas, les deux libellés peuvent être will buy
et won't buy
. Le revendeur peut créer un ensemble de données de sorte qu'une colonne représente les deux libellés et contient également des informations sur le client, telles que son emplacement, ses achats précédents et ses préférences déclarées. Le marchand peut ensuite utiliser un modèle de régression logistique binaire qui exploite ces informations client pour prédire l'étiquette qui représente le mieux chaque client.
Dans ce tutoriel, vous allez créer un modèle de régression logistique binaire permettant de prédire si le revenu d'une personne interrogée lors du recensement se situe dans l'une des deux plages possibles en fonction des attributs démographiques de cette personne.
Créer un ensemble de données
Créez un ensemble de données BigQuery pour stocker votre modèle :
Dans la console Google Cloud , accédez à la page BigQuery.
Dans le panneau de gauche, cliquez sur
Explorer :Si le volet de gauche n'apparaît pas, cliquez sur
Développer le volet de gauche pour l'ouvrir.Dans le volet Explorateur, cliquez sur le nom de votre projet.
Cliquez sur
Afficher les actions > Créer un ensemble de données.Sur la page Créer un ensemble de données, procédez comme suit :
Dans le champ ID de l'ensemble de données, saisissez
census
.Pour Type d'emplacement, sélectionnez Multirégional, puis sélectionnez US (plusieurs régions aux États-Unis).
Les ensembles de données publics sont stockés dans l'emplacement multirégional
US
. Par souci de simplicité, stockez votre ensemble de données dans le même emplacement.Conservez les autres paramètres par défaut, puis cliquez sur Créer un ensemble de données.
Examiner les données
Examinez l'ensemble de données et identifier les colonnes à utiliser comme données d'entraînement pour le modèle de régression logistique. Sélectionnez 100 lignes dans la table census_adult_income
:
SQL
Dans la console Google Cloud , accédez à la page BigQuery.
Dans l'éditeur de requête, exécutez la requête GoogleSQL suivante :
SELECT age, workclass, marital_status, education_num, occupation, hours_per_week, income_bracket, functional_weight FROM `bigquery-public-data.ml_datasets.census_adult_income` LIMIT 100;
Les résultats ressemblent à ce qui suit :
BigQuery DataFrames
Avant d'essayer cet exemple, suivez les instructions de configuration pour BigQuery DataFrames du guide de démarrage rapide de BigQuery DataFrames. Pour en savoir plus, consultez la documentation de référence sur BigQuery DataFrames.
Pour vous authentifier auprès de BigQuery, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer les ADC pour un environnement de développement local.
Les résultats de la requête montrent que la colonne income_bracket
de la table census_adult_income
ne présente que l'une des deux valeurs suivantes : <=50K
ou >50K
.
Préparer les exemples de données
Dans ce tutoriel, vous allez prédire le revenu des personnes interrogées lors du recensement en fonction des valeurs des colonnes suivantes du tableau census_adult_income
:
age
: âge du répondant.workclass
: classe de travail effectué. Par exemple, une administration locale, une entreprise privée ou un travailleur indépendant.marital_status
education_num
: niveau d'études le plus élevé de la personne interrogée.occupation
hours_per_week
: heures travaillées par semaine.
Vous excluez les colonnes qui entraîneraient une duplication des données. Par exemple, la colonne education
, car les valeurs des colonnes education
et education_num
expriment les mêmes données sous différents formats.
La colonne functional_weight
correspond au nombre de personnes représentées par une ligne particulière selon l'organisation de recensement. Étant donné que la valeur de cette colonne n'a aucun lien avec la valeur de income_bracket
pour une ligne donnée, vous utilisez la valeur de cette colonne pour séparer les données en ensembles d'entraînement, d'évaluation et de prédiction en créant une colonne dataframe
dérivée de la colonne functional_weight
. Vous étiquetez 80 % des données pour l'entraînement du modèle, 10 % pour l'évaluation et 10 % pour la prédiction.
SQL
Créez une vue avec les exemples de données.
Cette vue est utilisée par l'instruction CREATE MODEL
plus loin dans ce tutoriel.
Exécutez la requête qui prépare les exemples de données :
Dans la console Google Cloud , accédez à la page BigQuery.
Dans l'éditeur de requête, saisissez la requête suivante :
CREATE OR REPLACE VIEW `census.input_data` AS SELECT age, workclass, marital_status, education_num, occupation, hours_per_week, income_bracket, CASE WHEN MOD(functional_weight, 10) < 8 THEN 'training' WHEN MOD(functional_weight, 10) = 8 THEN 'evaluation' WHEN MOD(functional_weight, 10) = 9 THEN 'prediction' END AS dataframe FROM `bigquery-public-data.ml_datasets.census_adult_income`;
Affichez les exemples de données :
SELECT * FROM `census.input_data`;
BigQuery DataFrames
Créez un DataFrame
appelé input_data
. Vous utiliserez input_data
plus loin dans ce tutoriel pour entraîner le modèle, l'évaluer et effectuer des prédictions.
Avant d'essayer cet exemple, suivez les instructions de configuration pour BigQuery DataFrames du guide de démarrage rapide de BigQuery DataFrames. Pour en savoir plus, consultez la documentation de référence sur BigQuery DataFrames.
Pour vous authentifier auprès de BigQuery, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer les ADC pour un environnement de développement local.
Créer un modèle de régression logistique
Vous allez créer un modèle de régression logistique avec les données d'entraînement que vous avez étiquetées dans la section précédente.
SQL
Utilisez l'instruction CREATE MODEL
et spécifiez LOGISTIC_REG
pour le type de modèle.
Voici quelques points utiles à connaître concernant l'instruction CREATE MODEL
:
L'option
input_label_cols
spécifie la colonne de l'instructionSELECT
à utiliser comme colonne d'étiquette. Ici, la colonne d'étiquette indiqueincome_bracket
. Le modèle détermine donc laquelle des deux valeurs deincome_bracket
est la plus probable pour cette ligne en fonction des autres valeurs présentes dans cette ligne.Il n'est pas nécessaire de spécifier si un modèle de régression logistique est binaire ou multiclasse. BigQuery ML détermine le type de modèle à entraîner en fonction du nombre de valeurs uniques dans la colonne de libellé.
L'option
auto_class_weights
est définie surTRUE
afin d'équilibrer les libellés de classe dans les données d'entraînement. Par défaut, les données d'entraînement ne sont pas pondérées. Si les étiquettes des données d'entraînement sont déséquilibrées, le modèle peut apprendre à prédire en priorité la classe d'étiquettes la plus populaire. Dans ce cas, la plupart des personnes interrogées de l'ensemble de données se situent dans la tranche de revenu inférieure. Cela peut conduire à un modèle qui favorise trop la tranche de revenu inférieure. Les pondérations des classes équilibrent les étiquettes de classe en calculant des pondérations pour chaque classe de manière inversement proportionnelle à la fréquence de celle-ci.L'option
enable_global_explain
est définie surTRUE
pour vous permettre d'utiliser la fonctionML.GLOBAL_EXPLAIN
sur le modèle plus loin dans le tutoriel.L'instruction
SELECT
interroge la vueinput_data
qui contient les exemples de données. La clauseWHERE
filtre les lignes afin que seules celles libellées en tant que données d'entraînement soient utilisées pour entraîner le modèle.
Exécutez la requête permettant de créer le modèle de régression logistique :
Dans la console Google Cloud , accédez à la page BigQuery.
Dans l'éditeur de requête, saisissez la requête suivante :
CREATE OR REPLACE MODEL `census.census_model` OPTIONS ( model_type='LOGISTIC_REG', auto_class_weights=TRUE, enable_global_explain=TRUE, data_split_method='NO_SPLIT', input_label_cols=['income_bracket'], max_iterations=15) AS SELECT * EXCEPT(dataframe) FROM `census.input_data` WHERE dataframe = 'training'
Dans le panneau de gauche, cliquez sur
Explorer :Dans le volet Explorateur, cliquez sur Ensembles de données.
Dans le volet Ensembles de données, cliquez sur
census
.Cliquez sur l'onglet Modèles.
Cliquez sur
census_model
.L'onglet Détails liste les attributs que BigQuery ML a utilisés pour effectuer une régression logistique.
BigQuery DataFrames
Utilisez la méthode fit
pour entraîner le modèle et la méthode to_gbq
pour l'enregistrer dans votre ensemble de données.
Avant d'essayer cet exemple, suivez les instructions de configuration pour BigQuery DataFrames du guide de démarrage rapide de BigQuery DataFrames. Pour en savoir plus, consultez la documentation de référence sur BigQuery DataFrames.
Pour vous authentifier auprès de BigQuery, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer les ADC pour un environnement de développement local.
Évaluer les performances du modèle
Après avoir créé le modèle, évaluez ses performances par rapport aux données d'évaluation.
SQL
La fonction ML.EVALUATE
compare les valeurs de prédiction générées par le modèle aux données d'évaluation.
En entrée, la fonction ML.EVALUATE
prend le modèle entraîné et les lignes de la vue input_data
qui ont evaluation
comme valeur pour la colonne dataframe
. La fonction renvoie une seule ligne de statistiques concernant le modèle.
Exécutez la requête ML.EVALUATE
:
Dans la console Google Cloud , accédez à la page BigQuery.
Dans l'éditeur de requête, saisissez la requête suivante :
SELECT * FROM ML.EVALUATE (MODEL `census.census_model`, ( SELECT * FROM `census.input_data` WHERE dataframe = 'evaluation' ) );
Les résultats ressemblent à ce qui suit :
BigQuery DataFrames
Vous allez utiliser la méthode score
pour évaluer le modèle par rapport aux données réelles.
Avant d'essayer cet exemple, suivez les instructions de configuration pour BigQuery DataFrames du guide de démarrage rapide de BigQuery DataFrames. Pour en savoir plus, consultez la documentation de référence sur BigQuery DataFrames.
Pour vous authentifier auprès de BigQuery, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer les ADC pour un environnement de développement local.
Vous pouvez également consulter le volet Évaluation du modèle dans la console Google Cloud pour afficher les métriques d'évaluation calculées pendant l'entraînement :
Prédire la tranche de revenu
Utilisez le modèle pour prédire la tranche de revenu la plus probable pour chaque répondant.
SQL
Utilisez la fonction ML.PREDICT
pour effectuer des prédictions sur la tranche de revenu probable. En entrée, la fonction ML.PREDICT
prend le modèle entraîné et les lignes de la vue input_data
qui ont prediction
comme valeur pour la colonne dataframe
.
Exécutez la requête ML.PREDICT
:
Dans la console Google Cloud , accédez à la page BigQuery.
Dans l'éditeur de requête, saisissez la requête suivante :
SELECT * FROM ML.PREDICT (MODEL `census.census_model`, ( SELECT * FROM `census.input_data` WHERE dataframe = 'prediction' ) );
Les résultats ressemblent à ce qui suit :
La colonne predicted_income_bracket
contient la tranche de revenus prévue pour le répondant.
BigQuery DataFrames
Utilisez la méthode predict
pour effectuer des prédictions sur la tranche de revenu probable.
Avant d'essayer cet exemple, suivez les instructions de configuration pour BigQuery DataFrames du guide de démarrage rapide de BigQuery DataFrames. Pour en savoir plus, consultez la documentation de référence sur BigQuery DataFrames.
Pour vous authentifier auprès de BigQuery, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer les ADC pour un environnement de développement local.
Expliquer les résultats des prédictions
Pour comprendre pourquoi votre modèle génère ces résultats de prédiction, vous pouvez utiliser la fonction ML.EXPLAIN_PREDICT
.
ML.EXPLAIN_PREDICT
est une version étendue de la fonction ML.PREDICT
.
La fonction ML.EXPLAIN_PREDICT
génère non seulement des résultats de prédiction, mais elle produit également des colonnes supplémentaires servant à expliquer ces résultats. Pour en savoir plus sur l'explicabilité, consultez la présentation d'Explainable AI dans BigQuery ML.
Exécutez la requête ML.EXPLAIN_PREDICT
:
Dans la console Google Cloud , accédez à la page BigQuery.
Dans l'éditeur de requête, saisissez la requête suivante :
SELECT * FROM ML.EXPLAIN_PREDICT(MODEL `census.census_model`, ( SELECT * FROM `census.input_data` WHERE dataframe = 'evaluation'), STRUCT(3 as top_k_features));
Les résultats ressemblent à ce qui suit :
Pour les modèles de régression logistique, les valeurs de Shapley sont utilisées pour déterminer l'attribution relative des caractéristiques pour chaque caractéristique du modèle. Étant donné que l'option top_k_features
a été définie sur 3
dans la requête, ML.EXPLAIN_PREDICT
génère les trois premières attributions de caractéristiques pour chaque ligne de la vue input_data
. Ces attributions sont affichées par ordre décroissant de la valeur absolue de l'attribution.
Expliquer globalement le modèle
Pour identifier les caractéristiques les plus importantes pour déterminer la tranche de revenu, utilisez la fonction ML.GLOBAL_EXPLAIN
.
Obtenez des explications globales pour le modèle :
Dans la console Google Cloud , accédez à la page BigQuery.
Dans l'éditeur de requête, exécutez la requête suivante pour obtenir des explications globales :
SELECT * FROM ML.GLOBAL_EXPLAIN(MODEL `census.census_model`)
Les résultats ressemblent à ce qui suit :