En savoir plus sur les transformations d'ensembles de données

Comprendre le prétraitement, l'équilibrage, la stratification et la pertinence des ensembles de données pour le machine learning

Vous pouvez interroger un modèle directement et tester les résultats renvoyés lors de l'utilisation de différentes valeurs de paramètre en utilisant la console Cloud ou en appelant directement l'API Vertex AI.

Requête Freeform

Je travaille sur un projet de machine learning et j'ai besoin de votre aide pour comprendre le processus de transformation de grands ensembles de données. Vous trouverez ci-dessous le code qui gère les valeurs manquantes, standardise les valeurs et équilibre les données. Pourriez-vous expliquer ce code ? Je dois savoir si l'ordre de ces étapes est important. Si les données d'entraînement sont équilibrées ultérieurement, dois-je quand même stratifier les données dans la répartition ? Les données de test doivent-elles également être équilibrées avant d'évaluer les performances du modèle ? Enfin, veuillez résumer le type de données approprié pour ce workflow.

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTENC


df = pd.read_csv('my_dataset.csv')

# Remove duplicate rows from the dataset
df.drop_duplicates(inplace=True)

# Separate the features (X) and the target variable (y)
X = df.drop('target', axis=1)
y = df['target']

# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Check class distribution
print(f"Original training set class distribution: {np.bincount(y_train)}")

# Identify numeric and categorical features
numeric_features = [col for col in X_train.columns if 'num_feature' in col]
categorical_features = [col for col in X_train.columns if 'cat_feature' in col]

# Preprocessing pipeline for numeric missing values and feature scaling
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])
# Preprocessing pipeline for categorical missing values and encoding
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])
# Preprocessing
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])
X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)

# Class balancing
categorical_indices = [X_train.columns.get_loc(col) for col in categorical_features]
smote_nc = SMOTENC(categorical_features=categorical_indices, random_state=42)
X_train_resampled, y_train_resampled = smote_nc.fit_resample(X_train_processed, y_train)

print(f"Resampled training set class distribution: {np.bincount(y_train_resampled)}")

Réponse

Ce code effectue plusieurs étapes de prétraitement essentielles sur un ensemble de données avant de l'alimenter dans un modèle de machine learning. Décortiquons le code étape par étape, en répondant à vos questions au fur et à mesure.

Explication du code :

  1. Chargement des données et suppression des doublons : le code commence par charger un fichier CSV (my_dataset.csv) dans un DataFrame pandas et supprime les lignes en double.

  2. Séparation des caractéristiques et des cibles : il sépare l'ensemble de données en caractéristiques (X) et en variable cible (y). La colonne "target" est considérée comme la variable cible.

  3. Division entraînement-test : les données sont divisées en ensembles d'entraînement et de test à l'aide de train_test_split. stratify=y garantit que les proportions de classe dans la variable cible (y) sont conservées dans les ensembles d'entraînement et de test. Cette étape est importante pour éviter les biais, en particulier si vous disposez d'un ensemble de données déséquilibré.

  4. Vérification de la distribution des classes : le code imprime la distribution des classes de la variable cible dans l'ensemble d'entraînement avant l'équilibrage.

  5. Identification des caractéristiques : le code identifie les caractéristiques numériques et catégorielles en fonction des conventions d'attribution de noms ('num_feature' et 'cat_feature' dans les noms de colonnes). Cela suppose que vos colonnes sont nommées de manière à distinguer clairement les caractéristiques numériques et catégorielles. Une méthode plus robuste consiste à inspecter directement les types de données.

  6. Pipelines de prétraitement : deux pipelines sont créés :

    • numeric_transformer : gère les caractéristiques numériques. Il impute d'abord les valeurs manquantes à l'aide de la moyenne (SimpleImputer(strategy='mean')), puis normalise les caractéristiques à l'aide de StandardScaler.
    • categorical_transformer : gère les caractéristiques catégorielles. Il impute les valeurs manquantes à l'aide de la valeur la plus fréquente (SimpleImputer(strategy='most_frequent')), puis encode les caractéristiques via un encodage one-hot à l'aide de OneHotEncoder(handle_unknown='ignore'). Le paramètre handle_unknown='ignore' est essentiel. Il gère les catégories non visibles dans l'ensemble de test en leur attribuant un vecteur de zéros.
  7. ColumnTransformer : un ColumnTransformer combine les deux pipelines, en appliquant le pipeline approprié à chaque type de caractéristique.

  8. Transformation des données : la méthode fit_transform est appelée sur les données d'entraînement pour adapter les transformateurs et transformer les données simultanément. transform est ensuite utilisé sur les données de test pour appliquer les mêmes transformations apprises à partir des données d'entraînement. Il est essentiel de ne s'adapter qu'aux données d'entraînement pour éviter les fuites de données.

  9. Équilibrage des classes avec SMOTENC : SMOTENC (Synthetic Minority Over-sampling Technique for Nominal and Continuous features) permet de suréchantillonner les classes minoritaires dans les données d'entraînement. Cela permet de résoudre les problèmes de déséquilibre des classes. Il est important de noter qu'il utilise les indices des caractéristiques catégorielles comme entrée pour les gérer de manière appropriée lors du suréchantillonnage.

  10. Distribution des classes rééchantillonnées : le code affiche la distribution des classes de l'ensemble d'entraînement après l'équilibrage.

Réponses à vos questions :

  • Ordre des étapes : l'ordre est très important. Vous devez prendre les mesures suivantes :

    1. Diviser : divisez les données en ensembles d'entraînement et de test avant tout prétraitement ou équilibrage. Cela permet d'éviter les fuites de données depuis l'ensemble de test vers l'ensemble d'entraînement.
    2. Prétraiter : appliquez des étapes de prétraitement (imputation et scaling/encodage) aux ensembles d'entraînement et de test. Ajustez les transformateurs uniquement sur les données d'entraînement, puis transformez les données d'entraînement et de test.
    3. Équilibrer : équilibrez les données d'entraînement uniquement à l'aide de techniques telles que SMOTE. N'équilibrez jamais l'ensemble de test.
  • Stratifier dans la division : comme vous équilibrez les données d'entraînement plus tard à l'aide de SMOTE, vous pouvez supprimer stratify=y de train_test_split. Toutefois, il est généralement recommandé de le conserver. La stratification garantit une distribution représentative des classes dans votre division initiale, même si vous modifiez plus tard l'équilibre de l'ensemble d'entraînement. La suppression de la stratification peut entraîner un ensemble de test légèrement moins représentatif, mais l'impact est généralement mineur par rapport aux avantages de l'échantillonnage stratifié.

  • Équilibrer les données de test : non, vous ne devez jamais équilibrer les données de test. Les données de test doivent refléter la distribution réelle de vos données. L'équilibrage gonflerait artificiellement les métriques de performances et fournirait une évaluation trompeuse de la capacité de généralisation de votre modèle.

  • Données appropriées : ce workflow convient aux ensembles de données comportant :

    • Un mélange de caractéristiques numériques et catégorielles.
    • Des valeurs manquantes dans les caractéristiques numériques et catégorielles.
    • Une distribution déséquilibrée des classes dans la variable cible.
    • Un nombre suffisant d'échantillons pour éviter un surapprentissage après un suréchantillonnage. SMOTE peut créer des échantillons synthétiques, mais il est toujours important de disposer de suffisamment de points de données d'origine pour apprendre des schémas significatifs.

En résumé, ce code fournit une approche robuste et bien structurée pour le prétraitement des données pour le machine learning, en gérant efficacement les valeurs manquantes, le scaling, l'encodage et le déséquilibre des classes. L'ordre des opérations est essentiel pour éviter les fuites de données et obtenir une évaluation fiable du modèle.

Modèle : gemini-1.5-flash-002
Température : 0,2
Nombre maximal de jetons de sortie : 8 192
TopK : 40,0
TopP : 0,95