A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.

Questa pagina è stata tradotta dall'API Cloud Translation.

Scopri di più sulle trasformazioni dei set di dati

Scopri la pre-elaborazione, l'equilibrio, la stratificazione e l'idoneità del set di dati per il machine learning.

Puoi eseguire query direttamente su un modello e testare i risultati restituiti quando utilizzi valori di parametro diversi con la console Cloud o richiamando direttamente l'API Vertex AI.

Per un esempio di utilizzo dell'API Vertex AI, consulta Guida rapida all'utilizzo dell'API Vertex AI.
Per visualizzare questo esempio nella console Cloud: Vai alla console Google Cloud

Prompt In formato libero

Sto lavorando a un progetto di machine learning e ho bisogno del tuo aiuto per comprendere la procedura di trasformazione di set di dati di grandi dimensioni. Di seguito è riportato il codice che gestisce i valori mancanti, li standardizza e bilancia i dati. Potresti spiegare questo codice? Devo sapere se l\'ordine di questi passaggi è importante. Se i dati di addestramento vengono bilanciati in un secondo momento, devo comunque stratificare i dati nella suddivisione? Inoltre, i dati di test devono essere bilanciati prima di valutare le prestazioni del modello? Infine, riepiloga il tipo di dati appropriato per questo flusso di lavoro.

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from imblearn.over_sampling import SMOTENC


df = pd.read_csv('my_dataset.csv')

# Remove duplicate rows from the dataset
df.drop_duplicates(inplace=True)

# Separate the features (X) and the target variable (y)
X = df.drop('target', axis=1)
y = df['target']

# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Check class distribution
print(f"Original training set class distribution: {np.bincount(y_train)}")

# Identify numeric and categorical features
numeric_features = [col for col in X_train.columns if 'num_feature' in col]
categorical_features = [col for col in X_train.columns if 'cat_feature' in col]

# Preprocessing pipeline for numeric missing values and feature scaling
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])
# Preprocessing pipeline for categorical missing values and encoding
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])
# Preprocessing
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])
X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)

# Class balancing
categorical_indices = [X_train.columns.get_loc(col) for col in categorical_features]
smote_nc = SMOTENC(categorical_features=categorical_indices, random_state=42)
X_train_resampled, y_train_resampled = smote_nc.fit_resample(X_train_processed, y_train)

print(f"Resampled training set class distribution: {np.bincount(y_train_resampled)}")

Risposta

Questo codice esegue diversi passaggi di pre-elaborazione fondamentali su un set di dati prima di inserirlo in un modello di machine learning. Analizziamo il codice passo passo, rispondendo alle tue domande man mano che procediamo.

Spiegazione del codice:

Caricamento dei dati e rimozione delle duplicazioni:il codice inizia caricando un file CSV (my_dataset.csv) in un DataFrame Pandas e rimuove le righe duplicate.
Separazione di caratteristiche e target:separa il set di dati in caratteristiche (X) e nella variabile target (y). Si presume che la colonna "target" sia la variabile target.
Suddivisione in set di addestramento e test:i dati vengono suddivisi in set di addestramento e test utilizzando train_test_split. È fondamentale che stratify=y garantisca che le proporzioni delle classi nella variabile di destinazione (y) vengano mantenute sia nei set di addestramento che in quelli di test. Questo è importante per evitare pregiudizi, soprattutto se hai un set di dati sbilanciato.
Controllo della distribuzione delle classi:il codice stampa la distribuzione delle classi della variabile target nel set di addestramento prima dell'equilibrio.
Identificazione delle caratteristiche:il codice identifica le caratteristiche numeriche e categoriche in base alle convenzioni di denominazione ("num_feature" e "cat_feature" nei nomi delle colonne). Si presume che le colonne siano denominate in modo da distinguere chiaramente le caratteristiche numeriche da quelle categoriche. Un metodo più affidabile potrebbe prevedere l'ispezione diretta dei tipi di dati.
Pipeline di preelaborazione:vengono create due pipeline:
- numeric_transformer: gestisce le funzionalità numeriche. Innanzitutto, vengono imputati i valori mancanti utilizzando la media (SimpleImputer(strategy='mean')) e poi le funzionalità vengono standardizzate utilizzando StandardScaler.
- categorical_transformer: gestisce le caratteristiche categoriche. Imputa i valori mancanti utilizzando il valore più frequente (SimpleImputer(strategy='most_frequent')) e poi codifica le funzionalità in one-hot utilizzando OneHotEncoder(handle_unknown='ignore'). Il parametro handle_unknown='ignore' è fondamentale: gestisce le categorie non visibili nel set di test assegnando loro un vettore di zeri.
ColumnTransformer: un ColumnTransformer combina le due pipeline, applicando quella appropriata a ogni tipo di funzionalità.
Trasformazione dei dati:il metodo fit_transform viene chiamato sui dati di addestramento per adattare i trasformatori e trasformare i dati contemporaneamente. transform viene poi utilizzato sui dati di test per applicare le stesse trasformazioni apprese dai dati di addestramento. È fondamentale eseguire l'adattamento solo sui dati di addestramento per evitare la fuga di dati.
Equilibrazione delle classi con SMOTENC: SMOTENC (Synthetic Minority Over-sampling Technique for Nominal and Continuous features) viene utilizzata per eseguire il sovracampionamento delle classi di minoranza nei dati di addestramento. In questo modo si risolve il problema di sbilanciamento delle classi. È importante sottolineare che prende come input gli indici delle caratteristiche categoriche per gestirle in modo appropriato durante l'oversampling.
Distribuzione delle classi campionata nuovamente:il codice stampa la distribuzione delle classi del set di addestramento dopo l'equilibrio.

Risposte alle tue domande:

Ordine dei passaggi: l'ordine è molto importante. Devi:
1. Dividi:suddividi in set di addestramento e test prima di qualsiasi pre-elaborazione o bilanciamento. In questo modo si evita la fuga di dati dal set di test al set di addestramento.
2. Pre-elaborazione:applica i passaggi di pre-elaborazione (attribuzione e riscaling/codifica) ai set di addestramento e test. Adatta i trasformatori solo ai dati di addestramento e poi trasforma sia i dati di addestramento che quelli di test.
3. Equilibrio:bilancia i dati di addestramento utilizzando solo tecniche come SMOTE. Non bilanciare mai il set di test.
Stratifica nella suddivisione: poiché bilancierai i dati di addestramento in un secondo momento utilizzando SMOTE, potresti rimuovere stratify=y da train_test_split. Tuttavia, in genere è buona norma conservarlo. La stratificazione garantisce una distribuzione rappresentativa delle classi nella suddivisione iniziale, anche se in un secondo momento modifichi il bilanciamento del set di addestramento. La rimozione della stratificazione potrebbe portare a un set di test leggermente meno rappresentativo, ma l'impatto è in genere minore rispetto ai vantaggi del campionamento stratificato.
Equilibrare i dati di test: no, non devi mai bilanciare i dati di test. I dati di test devono riflettere la distribuzione dei dati nel mondo reale. Il bilanciamento gonfierebbe artificialmente le metriche sul rendimento e fornirebbe una valutazione fuorviante della capacità di generalizzazione del modello.
Dati appropriati:questo flusso di lavoro è adatto per set di dati con:
- Una combinazione di caratteristiche numeriche e categoriche.
- Valori mancanti sia nelle caratteristiche numeriche che in quelle categoriche.
- Una distribuzione non equilibrata delle classi nella variabile target.
- Un numero sufficiente di campioni per evitare il sovraadattamento dopo il sovracampionamento. SMOTE può creare campioni sintetici, ma è comunque importante disporre di un numero sufficiente di punti dati originali per apprendere schemi significativi.

In sintesi, questo codice fornisce un approccio solido e ben strutturato per l'elaborazione preliminare dei dati per il machine learning, gestendo in modo efficace i valori mancanti, la scalabilità, la codifica e lo squilibrio delle classi. L'ordine delle operazioni è fondamentale per evitare la fuga di dati e ottenere una valutazione del modello affidabile.

Modello:	gemini-1.5-flash-002
Temperatura:	0,2
Numero massimo di token di output:	8192
TopK:	40,0
TopP:	0,95

Scopri di più sulle trasformazioni dei set di dati Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Prompt In formato libero

Risposta

Scopri di più sulle trasformazioni dei set di dati