Tabular Workflows su Vertex AI

Tabular Workflows è un insieme di pipeline integrate, completamente gestite e scalabili per il machine learning end-to-end con dati tabulari. Sfrutta la tecnologia di Google per lo sviluppo dei modelli e ti offre opzioni di personalizzazione in base alle tue esigenze.

Vantaggi

  • Completamente gestito: non devi preoccuparti di aggiornamenti, dipendenze e conflitti.
  • Facile da scalare: non è necessario riprogettare l'infrastruttura man mano che carichi di lavoro o set di dati crescono.
  • Ottimizzato per le prestazioni: l'hardware giusto viene configurato automaticamente per i requisiti del flusso di lavoro.
  • Completamente integrato: la compatibilità con i prodotti della suite MLOps su Vertex AI, come Vertex AI Pipelines e Vertex AI Experiments, ti consente di eseguire molti esperimenti in un breve periodo di tempo.

Panoramica tecnica

Ogni flusso di lavoro è un'istanza gestita di Vertex AI Pipelines.

Vertex AI Pipelines è un servizio serverless che esegue pipeline Kubeflow. Puoi usare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per suddividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze dei componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o dipendono dall'output di altri passaggi all'interno della pipeline. Queste dipendenze definiscono il flusso di lavoro della pipeline come un grafo diretto aciclico.

flussi di lavoro tabulari come un grafo diretto aciclico

Come iniziare

Nella maggior parte dei casi, è necessario definire ed eseguire la pipeline utilizzando l'SDK Google Cloud Pipeline components. Il seguente codice campione fornisce un'illustrazione. Tieni presente che l'effettiva implementazione del codice può essere diversa.

  // Define the pipeline and the parameters
  template_path, parameter_values = tabular_utils.get_default_pipeline_and_parameters(
     …
      optimization_objective=optimization_objective,
      data_source=data_source,
      target_column_name=target_column_name
     …)
  // Run the pipeline
  job = pipeline_jobs.PipelineJob(..., template_path=template_path, parameter_values=parameter_values)
  job.run(...)

Per colab e blocchi note di esempio, contatta il tuo rappresentante di vendita o compila un modulo di richiesta.

Controllo delle versioni e manutenzione

Tabular Workflows ha un efficace sistema di controllo delle versioni che consente aggiornamenti e miglioramenti continui senza interrompere le modifiche alle applicazioni.

Ogni flusso di lavoro viene rilasciato e aggiornato come parte dell'SDK Google Cloud Pipeline components. Gli aggiornamenti e le modifiche a qualsiasi flusso di lavoro vengono rilasciati come nuove versioni del flusso di lavoro. Le versioni precedenti di ogni flusso di lavoro sono sempre disponibili tramite le versioni precedenti dell'SDK. Se la versione dell'SDK è bloccata, viene bloccata anche la versione del flusso di lavoro.

Flussi di lavoro disponibili

Vertex AI fornisce i seguenti flussi di lavoro tabulari:

Nome Tipo Disponibilità
Motore per la trasformazione delle funzionalità Ingegneria delle funzionalità Anteprima pubblica
AutoML end-to-end Classificazione e regressione Generalmente disponibile
TabNet Classificazione e regressione Anteprima pubblica
Grande e profondo Classificazione e regressione Anteprima pubblica
Previsione Previsione Anteprima pubblica

Per ulteriori informazioni e per esempi di blocchi note, contatta il tuo rappresentante di vendita o compila un modulo di richiesta.

Motore di trasformazione delle funzionalità

Feature Transform Engine esegue la selezione e le trasformazioni delle caratteristiche. Se la selezione delle funzionalità è abilitata, il motore di trasformazione delle caratteristiche crea un insieme classificato di caratteristiche importanti. Se le trasformazioni delle caratteristiche sono abilitate, Feature Transform Engine elabora le caratteristiche per garantire che l'input per l'addestramento e la pubblicazione del modello sia coerente. Feature Transform Engine può essere utilizzato da solo o insieme a qualsiasi flusso di lavoro di addestramento tabulare. Supporta framework TensorFlow e non TensorFlow.

Per ulteriori informazioni, consulta Progettazione delle funzionalità.

Flussi di lavoro tabulari per classificazione e regressione

Flusso di lavoro tabulare per AutoML end-to-end

Tabular Workflow for End-to-End AutoML è una pipeline AutoML completa per le attività di classificazione e regressione. È simile all'API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Invece di controllare l'intera pipeline, puoi utilizzare i controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:

  • Suddivisione dei dati
  • Feature engineering
  • Ricerca dell'architettura
  • Addestramento del modello
  • Configurazione di modelli
  • Distillazione del modello

Vantaggi

  • Supporta set di dati di grandi dimensioni con più TB e fino a 1000 colonne.
  • Consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
  • Consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
  • Consente di ridurre le dimensioni del modello e migliorare la latenza tramite la distillazione o modificando le dimensioni dell'insieme.
  • Ogni componente AutoML può essere ispezionato in una potente interfaccia grafica delle pipeline che consente di visualizzare le tabelle di dati trasformate, le architetture dei modelli valutate e molti altri dettagli.
  • Ogni componente AutoML ottiene maggiore flessibilità e trasparenza, ad esempio la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, log e altro ancora.

Input-Output

  • Recupera una tabella BigQuery o un file CSV da Cloud Storage come input.
  • Genera un modello Vertex AI come output.
  • Gli output intermedi includono statistiche del set di dati e suddivisioni del set di dati.

Per ulteriori informazioni, consulta Tabular Workflow for End-to-End AutoML (Flusso di lavoro tabulare per AutoML end-to-end).

Flusso di lavoro tabulare per TabNet

Il flusso di lavoro tabulare per TabNet è una pipeline che puoi utilizzare per addestrare modelli di classificazione o regressione. TabNet utilizza l'attenzione sequenziale per scegliere le caratteristiche su cui ragionare in ogni passaggio decisionale. Ciò favorisce l'interpretabilità e l'apprendimento più efficiente perché la capacità di apprendimento viene utilizzata per le caratteristiche più importanti.

Vantaggi

  • Seleziona automaticamente lo spazio di ricerca degli iperparametri appropriato in base alle dimensioni del set di dati, al tipo di previsione e al budget di addestramento.
  • Integrazione con Vertex AI. Il modello addestrato è un modello Vertex AI. Puoi eseguire previsioni batch o eseguire immediatamente il deployment del modello per le previsioni online.
  • Fornisce l'interpretabilità intrinseca del modello. Puoi ottenere informazioni sulle funzionalità utilizzate da TabNet per prendere questa decisione.
  • Supporta l'addestramento con GPU.

Input-Output

Recupera una tabella BigQuery o un file CSV da Cloud Storage come input e fornisce un modello Vertex AI come output.

Per ulteriori informazioni, consulta il Flusso di lavoro tabulare per TabNet.

Flusso di lavoro tabulare per Wide and Deep

Tabular Workflow for Wide & Deep è una pipeline che puoi utilizzare per addestrare modelli di classificazione o regressione. Wide & Deep addestra congiuntamente modelli lineari ampi e reti neurali profonde. Combina i vantaggi della memorizzazione e della generalizzazione. I risultati di alcuni esperimenti online hanno mostrato che Wide & Deep ha aumentato significativamente le acquisizioni di applicazioni del Google Store rispetto ai modelli wide-only e solo deep.

Vantaggi

  • Integrazione con Vertex AI. Il modello addestrato è un modello Vertex AI. Puoi eseguire previsioni batch o eseguire immediatamente il deployment del modello per le previsioni online.

Input-Output

Recupera una tabella BigQuery o un file CSV da Cloud Storage come input e fornisce un modello Vertex AI come output.

Per ulteriori informazioni, vedi Tabular Workflow for Wide & Deep.

Tabular Workflows for Forecast (Flussi di lavoro tabulari per le previsioni)

Flusso di lavoro tabulare per la previsione

Il flusso di lavoro tabulare per la previsione è la pipeline completa per le attività di previsione. È simile all'API AutoML, ma ti consente di scegliere cosa controllare e cosa automatizzare. Invece di controllare l'intera pipeline, puoi utilizzare i controlli per ogni passaggio della pipeline. Questi controlli della pipeline includono:

  • Suddivisione dei dati
  • Feature engineering
  • Ricerca dell'architettura
  • Addestramento del modello
  • Configurazione di modelli

Vantaggi

  • Supporta set di dati di grandi dimensioni con dimensioni fino a 1 TB e fino a 200 colonne.
  • Consente di migliorare la stabilità e ridurre i tempi di addestramento limitando lo spazio di ricerca dei tipi di architettura o saltando la ricerca dell'architettura.
  • Consente di migliorare la velocità di addestramento selezionando manualmente l'hardware utilizzato per l'addestramento e la ricerca dell'architettura.
  • Per alcuni metodi di addestramento dei modelli, ti consente di ridurre le dimensioni del modello e migliorare la latenza modificando le dimensioni dell'insieme.
  • Ogni componente può essere ispezionato in una potente interfaccia grafica delle pipeline che ti consente di visualizzare le tabelle di dati trasformate, le architetture dei modelli valutate e molti altri dettagli.
  • Ogni componente ottiene maggiore flessibilità e trasparenza, come la possibilità di personalizzare parametri, hardware, visualizzare lo stato del processo, log e altro ancora.

Input-Output

  • Recupera una tabella BigQuery o un file CSV da Cloud Storage come input.
  • Genera un modello Vertex AI come output.
  • Gli output intermedi includono statistiche del set di dati e suddivisioni del set di dati.

Per ulteriori informazioni, consulta Flusso di lavoro tabulare per la previsione.

Passaggi successivi