Tabular Workflows è un insieme di pipeline integrate, completamente gestite e scalabili per il ML end-to-end con dati tabulari. Sfrutta la tecnologia di Google per lo sviluppo di modelli e offre opzioni di personalizzazione in base alle tue esigenze.
Vantaggi
- Completamente gestito: non devi preoccuparti di aggiornamenti, dipendenze e conflitti.
- Facile da scalare: non è necessario riprogettare l'infrastruttura man mano che i workload o i set di dati crescono.
- Ottimizzato per le prestazioni: l'hardware giusto viene configurato automaticamente in base ai requisiti del flusso di lavoro.
- Integrazione profonda: la compatibilità con i prodotti della suite MLOps di Vertex AI, come Vertex AI Pipelines e Vertex AI Experiments, ti consente di eseguire molti esperimenti in poco tempo.
Panoramica tecnica
Ogni flusso di lavoro è un'istanza gestita di Vertex AI Pipelines.
Vertex AI Pipelines è un servizio serverless che esegue le pipeline Kubeflow. Puoi utilizzare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per suddividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze di componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o possono dipendere dall'output di altri passaggi all'interno di questa pipeline. Queste dipendenze definiscono il flusso di lavoro della pipeline come grafo diretto aciclico.
Come iniziare
Nella maggior parte dei casi, devi definire ed eseguire la pipeline utilizzando l'SDK Google Cloud Pipeline Components. Il seguente codice campione fornisce un'illustrazione. Tieni presente che l'implementazione effettiva del codice potrebbe essere diversa.
// Define the pipeline and the parameters
template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
…
optimization_objective=optimization_objective,
data_source=data_source,
target_column_name=target_column_name
…)
// Run the pipeline
job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
job.run(...)
Per colab e notebook di esempio, contatta il tuo rappresentante di vendita o compila un modulo di richiesta.
Controllo delle versioni e manutenzione
I flussi di lavoro tabulari hanno un sistema di gestione delle versioni efficace che consente aggiornamenti e miglioramenti continui senza interrompere le modifiche alle applicazioni.
Ogni flusso di lavoro viene rilasciato e aggiornato nell'ambito dell'SDK Google Cloud Pipeline Components. Gli aggiornamenti e le modifiche a qualsiasi flusso di lavoro vengono rilasciati come nuove versioni del flusso di lavoro. Le versioni precedenti di ogni flusso di lavoro sono sempre disponibili tramite le versioni precedenti dell'SDK. Se la versione dell'SDK è bloccata, lo è anche la versione del flusso di lavoro.
Workflow disponibili
Vertex AI fornisce i seguenti flussi di lavoro tabulari:
Nome | Tipo | Disponibilità |
---|---|---|
Feature Transform Engine | Feature Engineering | Anteprima pubblica |
AutoML end-to-end | Classificazione e regressione | Generalmente disponibile |
TabNet | Classificazione e regressione | Anteprima pubblica |
Wide and Deep | Classificazione e regressione | Anteprima pubblica |
Previsione | Previsione | Anteprima pubblica |
Per ulteriori informazioni e notebook di esempio, contatta il tuo rappresentante di vendita o compila un modulo di richiesta.
Feature Transform Engine
Il motore di trasformazione delle funzionalità esegue la selezione e le trasformazioni delle funzionalità. Se la selezione delle funzionalità è attivata, il motore di trasformazione delle funzionalità crea un insieme classificato di funzionalità importanti. Se le trasformazioni delle funzionalità sono attivate, il motore di trasformazione delle funzionalità elabora le funzionalità per garantire la coerenza dell'input per l'addestramento e il servizio del modello. Feature Transform Engine può essere utilizzato da solo o insieme a uno dei flussi di lavoro di addestramento tabulari. Supporta sia i framework TensorFlow che quelli non TensorFlow.
Per ulteriori informazioni, consulta Feature engineering.
Flussi di lavoro tabulari per la classificazione e la regressione
Flusso di lavoro tabulare per AutoML end-to-end
Il flusso di lavoro tabulare per AutoML end-to-end è una pipeline AutoML completa per attività di classificazione e regressione. È simile all'API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Invece di avere controlli per l'intera pipeline, hai controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:
- Suddivisione dei dati
- Feature engineering
- Ricerca dell'architettura
- Addestramento del modello
- Ensemble di modelli
- Distillazione del modello
Vantaggi
- Supporta set di dati di grandi dimensioni di dimensioni superiori a 1 TB e con un massimo di 1000 colonne.
- Ti consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
- Ti consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
- Consente di ridurre le dimensioni del modello e migliorare la latenza con la distillazione o modificando le dimensioni dell'ensemble.
- Ogni componente AutoML può essere esaminato in una potente interfaccia di grafici delle pipeline che ti consente di visualizzare le tabelle di dati trasformati, le architetture dei modelli valutate e molti altri dettagli.
- Ogni componente AutoML offre maggiore flessibilità e trasparenza, ad esempio la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, i log e altro ancora.
Input-Output
- Prende come input una tabella BigQuery o un file CSV da Cloud Storage.
- Produce un modello Vertex AI come output.
- Gli output intermedi includono le statistiche e le suddivisioni dei set di dati.
Per ulteriori informazioni, consulta Flusso di lavoro tabulare per AutoML end-to-end.
Flusso di lavoro tabulare per TabNet
Il flusso di lavoro tabulare per TabNet è una pipeline che puoi utilizzare per addestrare modelli di classificazione o regressione. TabNet utilizza l'attenzione sequenziale per scegliere le caratteristiche su cui basare il ragionamento in ogni fase decisionale. Ciò favorisce l'interpretabilità e un apprendimento più efficiente perché la capacità di apprendimento viene utilizzata per le caratteristiche più salienti.
Vantaggi
- Seleziona automaticamente lo spazio di ricerca degli iperparametri appropriato in base alle dimensioni del set di dati, al tipo di previsione e al budget per l'addestramento.
- Integrato con Vertex AI. Il modello addestrato è un modello Vertex AI. Puoi eseguire previsioni batch o eseguire subito il deployment del modello per le previsioni online.
- Fornisce un'interpretabilità intrinseca del modello. Puoi ottenere informazioni sulle funzionalità utilizzate da TabNet per prendere la sua decisione.
- Supporta l'addestramento con GPU.
Input-Output
Prende come input una tabella BigQuery o un file CSV da Cloud Storage e fornisce un modello Vertex AI come output.
Per ulteriori informazioni, vedi Flusso di lavoro tabulare per TabNet.
Flusso di lavoro tabulare per Wide & Deep
Il flusso di lavoro tabulare per Wide & Deep è una pipeline che puoi utilizzare per addestrare modelli di classificazione o regressione. Wide & Deep addestra congiuntamente modelli lineari ampi e reti neurali profonde. Combina i vantaggi della memorizzazione e della generalizzazione. In alcuni esperimenti online, i risultati hanno mostrato che Wide & Deep ha aumentato in modo significativo le acquisizioni di applicazioni del Google Store rispetto ai modelli solo ampi e solo approfonditi.
Vantaggi
- Integrato con Vertex AI. Il modello addestrato è un modello Vertex AI. Puoi eseguire previsioni batch o eseguire subito il deployment del modello per le previsioni online.
Input-Output
Prende come input una tabella BigQuery o un file CSV da Cloud Storage e fornisce un modello Vertex AI come output.
Per saperne di più, consulta Flusso di lavoro tabulare per Wide & Deep.
Workflow tabulari per la previsione
Flusso di lavoro tabulare per la previsione
Il flusso di lavoro tabulare per la previsione è la pipeline completa per le attività di previsione. È simile all'API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Invece di avere controlli per l'intera pipeline, hai controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:
- Suddivisione dei dati
- Feature engineering
- Ricerca dell'architettura
- Addestramento del modello
- Ensemble di modelli
Vantaggi
- Supporta set di dati di grandi dimensioni con dimensioni fino a 1 TB e fino a 200 colonne.
- Ti consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
- Ti consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
- Per alcuni metodi di addestramento del modello, consente di ridurre le dimensioni del modello e migliorare la latenza modificando le dimensioni dell'ensemble.
- Ogni componente può essere esaminato in un'efficace interfaccia di grafici delle pipeline che consente di visualizzare le tabelle di dati trasformati, le architetture dei modelli valutate e molti altri dettagli.
- Ogni componente offre flessibilità e trasparenza estese, ad esempio la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, i log e altro ancora.
Input-Output
- Prende come input una tabella BigQuery o un file CSV da Cloud Storage.
- Produce un modello Vertex AI come output.
- Gli output intermedi includono le statistiche e le suddivisioni dei set di dati.
Per ulteriori informazioni, consulta Flusso di lavoro tabulare per la previsione.
Passaggi successivi
- Scopri di più sul flusso di lavoro tabulare per AutoML end-to-end.
- Scopri di più sul flusso di lavoro tabulare per TabNet.
- Scopri di più sul flusso di lavoro tabulare per Wide & Deep.
- Scopri di più sul flusso di lavoro tabulare per la previsione.
- Scopri di più sulla creazione di funzionalità.
- Scopri di più sui prezzi di Tabular Workflows.