Visão geral sobre dados tabulares

Com a Vertex AI, você usa interfaces e processos simples para executar machine learning com dados tabulares. É possível criar os seguintes tipos de modelo para seus problemas de dados tabulares:

Os modelos de classificação binária preveem um resultado binário (uma de duas classes). Use esse tipo de modelo para perguntas sim ou não. Por exemplo, é possível criar um modelo de classificação binária para prever se um cliente faria uma assinatura. Geralmente, um problema de classificação binária requer menos dados do que outros tipos de modelo.
Os modelos de classificação multiclasse preveem uma classe entre três ou mais classes distintas. Use esse tipo de modelo para categorização. Por exemplo, como varejista, convém criar um modelo de classificação multiclasse para segmentar clientes em diferentes perfis.
Os modelos de regressão preveem um valor contínuo. Por exemplo, como varejista, talvez você queira criar um modelo de regressão para prever quanto um cliente vai gastar no próximo mês.
Os modelos de estimativa estimam uma sequência de valores. Por exemplo, como varejista, você pode prever a demanda diária dos seus produtos nos próximos três meses para poder estoque adequadamente nos estoques com antecedência.

Para uma introdução ao machine learning com dados tabulares, consulte Introdução aos dados em tabelas. Para mais informações sobre as soluções da Vertex AI, consulte Soluções da Vertex AI para classificação e regressão e Soluções da Vertex AI para previsão.

Uma observação sobre imparcialidade

O Google tem o compromisso de fazer progresso nas práticas responsáveis de IA. Para isso, nossos produtos de ML, incluindo o AutoML, foram projetados com base em princípios básicos como imparcialidade e machine learning centrado no ser humano. Para mais informações sobre as práticas recomendadas para minimizar o viés ao criar seu próprio sistema de ML, consulte o Guia de ML inclusivo: AutoML.

Soluções da Vertex AI para classificação e regressão

A Vertex AI oferece as seguintes soluções de classificação e regressão:

Fluxo de trabalho tabular para o AutoML de ponta a ponta
Fluxo de trabalho tabular para TabNet
Fluxo de trabalho tabular para amplo e profundo
Classificação e regressão com o AutoML

Fluxo de trabalho tabular para o AutoML de ponta a ponta

O fluxo de trabalho tabular para o AutoML de ponta a ponta é um pipeline completo do AutoML para tarefas de classificação e regressão. Ele é semelhante à API AutoML, mas permite que você escolha o que controlar e o que automatizar. Em vez de ter controles para o pipeline inteiro, você tem controles para cada etapa no pipeline. Esses controles de pipeline incluem o seguinte:

Divisão de dados
Engenharia de atributos
Pesquisa de arquitetura
Treinamento de modelo
Conjunto de modelos
Destilação de modelo

Benefícios

Suporta grandes conjuntos de dados com vários TB de tamanho e até 1.000 colunas.
Permite melhorar a estabilidade e reduzir o tempo de treinamento limitando o espaço de pesquisa de tipos de arquitetura ou pulando a pesquisa de arquitetura.
Permite melhorar a velocidade do treinamento selecionando manualmente o hardware usado para pesquisa de treinamento e arquitetura.
Permite reduzir o tamanho do modelo e melhorar a latência com destilação ou mudando o tamanho do ensemble.
Cada componente do AutoML pode ser inspecionado em uma ótima interface de gráfico de pipelines que permite ver as tabelas de dados transformadas, as arquiteturas de modelos avaliadas e muitos outros detalhes.
Os componentes do AutoML têm mais flexibilidade e transparência, como personalização de parâmetros, hardware, status do processo de visualização, registros e muito mais.

Para saber mais sobre os fluxos de trabalho tabulares, consulte Fluxos de trabalho tabulares na Vertex AI. Para saber mais sobre o fluxo de trabalho tabular para o AutoML completo, consulte Fluxo de trabalho tabular para o AutoML completo.

Fluxo de trabalho tabular para TabNet

O fluxo de trabalho tabular para treinamento do TabNet é um pipeline que pode ser usado para treinar modelos de classificação ou regressão. A TabNet usa a atenção sequencial para escolher quais recursos usar em cada etapa de decisão. Isso promove interpretabilidade e aprendizado mais eficiente, porque a capacidade de aprendizado é usada para os atributos mais significativos.

Benefícios

Seleciona automaticamente o espaço de pesquisa de hiperparâmetros adequado com base no tamanho do conjunto de dados, no tipo de previsão e no orçamento de treinamento.
Integrado com a Vertex AI. O modelo treinado é um modelo da Vertex AI. Você pode executar previsões em lote ou implantar o modelo para previsões on-line imediatamente.
Fornece a interpretabilidade inerente do modelo. É possível receber insights sobre quais atributos a TabNet usou para tomar a decisão.
Oferece suporte ao treinamento de GPUs.

Para saber mais sobre os fluxos de trabalho tabulares, consulte Fluxos de trabalho tabulares na Vertex AI. Para saber mais sobre o fluxo de trabalho tabular para o TabNet, consulte Fluxo de trabalho tabular para o TabNet.

Fluxo de trabalho tabular para amplo e profundo

O fluxo de trabalho tabular para treinamento amplo e profundo é um pipeline que pode ser usado para treinar modelos de classificação ou regressão. O modelo profundo e amplo treina em conjunto modelos lineares amplos e redes neurais profundas. Ele combina os benefícios de memorização e generalização. Em alguns experimentos on-line, os resultados mostraram que o modelo profundo e amplo aumentou significativamente aquisições de aplicativos da Google Store em comparação com os modelos somente amplos e somente profundos.

Benefícios

Integrado com a Vertex AI. O modelo treinado é um modelo da Vertex AI. Você pode executar previsões em lote ou implantar o modelo para previsões on-line imediatamente.

Para saber mais sobre os fluxos de trabalho tabulares, consulte Fluxos de trabalho tabulares na Vertex AI. Para saber mais sobre o fluxo de trabalho tabular para Wide & Deep e profundo, consulte Fluxo de trabalho tabular para amplo e profundo.

Classificação e regressão com o AutoML

A Vertex AI oferece pipelines integrados e totalmente gerenciados para tarefas de classificação ou regressão de ponta a ponta. A Vertex AI pesquisa o conjunto ideal de hiperparâmetros, treina vários modelos com vários conjuntos de hiperparâmetros e, em seguida, cria um único modelo final a partir de um conjunto dos principais modelos. A Vertex AI considera redes neurais e árvores aprimoradas para os tipos de modelo.

Benefícios

Fácil de usar: tipo de modelo, parâmetros de modelo e hardware são escolhidos para você

Para mais informações, consulte Visão geral sobre classificação e regressão.

Soluções da Vertex AI para previsão

A Vertex AI oferece as seguintes soluções para previsão:

Fluxo de trabalho tabular para previsão
Previsão com o AutoML
Previsão com o BigQuery ML ARIMA_PLUS
Previsão com o Prophet

Fluxo de trabalho tabular para previsão

O fluxo de trabalho tabular para previsão é o pipeline completo para tarefas de previsão. Ele é semelhante à API AutoML, mas permite que você escolha o que controlar e o que automatizar. Em vez de ter controles para o pipeline inteiro, você tem controles para cada etapa no pipeline. Esses controles de pipeline incluem o seguinte:

Divisão de dados
Engenharia de atributos
Pesquisa de arquitetura
Treinamento de modelo
Conjunto de modelos

Benefícios

Suporta conjuntos de dados grandes com tamanho de até 1 TB e até 200 colunas.
Permite melhorar a estabilidade e reduzir o tempo de treinamento limitando o espaço de pesquisa de tipos de arquitetura ou pulando a pesquisa de arquitetura.
Permite melhorar a velocidade do treinamento selecionando manualmente o hardware usado para pesquisa de treinamento e arquitetura.
Para alguns métodos de treinamento de modelo, é possível reduzir o tamanho do modelo e melhorar a latência alterando o tamanho do conjunto.
Cada componente pode ser inspecionado em uma ótima interface de gráfico de pipelines que permite ver as tabelas de dados transformadas, as arquiteturas de modelos avaliadas e muitos outros detalhes.
Os componentes têm mais flexibilidade e transparência, como personalização de parâmetros, hardware, status do processo de visualização, registros e muito mais.

Para saber mais sobre os fluxos de trabalho tabulares, consulte Fluxos de trabalho tabulares na Vertex AI. Para saber mais sobre o fluxo de trabalho tabular para previsão, consulte Fluxo de trabalho tabular para previsão.

Previsão com o AutoML

A Vertex AI oferece um pipeline integrado e totalmente gerenciado para tarefas de previsão de ponta a ponta. A Vertex AI pesquisa o conjunto ideal de hiperparâmetros, treina vários modelos com vários conjuntos de hiperparâmetros e, em seguida, cria um único modelo final a partir de um conjunto dos principais modelos. Escolha entre Codificador denso de série temporal (TiDE, na sigla em inglês), Transformador de fusão temporal (TFT, na sigla em inglês), AutoML (L2L) ou Seq2Seq+ para o método de treinamento do modelo. A Vertex AI considera apenas redes neurais como o tipo de modelo.

Benefícios

Fácil de usar: os parâmetros de modelo e o hardware são escolhidos para você.

Para mais informações, consulte: Visão geral sobre previsão.

Previsão com o BigQuery ML ARIMA_PLUS

O BigQuery ML ARIMA_PLUS é um modelo de previsão univariado. Por ser um modelo estatístico, ele é mais rápido treinar do que um modelo baseado em redes neurais. Recomendamos treinar um modelo BigQuery ML ARIMA_PLUS quando você precisa executar muitas iterações rápidas de treinamento de modelo ou precisa de um valor de referência econômico para medir outros modelos.

Assim como o Prophet, o BigQuery ML ARIMA_PLUS tenta decompor cada série temporal em tendências, estações e feriados, produzindo uma previsão usando a agregação dessas previsões de modelos. No entanto, uma das muitas diferenças é que o BQML ARIMA+ usa o ARIMA para modelar o componente de tendência, enquanto o Prophet tenta ajustar uma curva usando um modelo logístico ou linear parcial.

O Google Cloud oferece um pipeline para treinar um modelo BigQuery ML ARIMA_PLUS e um pipeline para receber previsões em lote de um modelo BigQuery ML ARIMA_PLUS. Os dois pipelines são instâncias de Vertex AI Pipelines de Componentes de Pipeline do Google Cloud (GCPC).

Benefícios

Fácil de usar: os parâmetros de modelo e o hardware são escolhidos para você.
Rápido: o treinamento de modelo fornece um valor de referência de baixo custo para comparação com outros modelos.

Para mais informações, consulte Previsão com ARIMA+

Previsão com o Prophet

O Prophet é um modelo de previsão mantido pela Meta. Confira o documento do Prophet para consultar detalhes do algoritmo e a documentação para mais informações sobre a biblioteca.

Assim como o BigQuery ML ARIMA_PLUS, o Prophet tenta decompor cada série temporal em tendências, estações e feriados, produzindo uma previsão usando a agregação desses modelos. No entanto, uma diferença importante é que o BQML ARIMA+ usa o ARIMA para modelar o componente de tendência, enquanto o Prophet tenta ajustar uma curva usando um modelo logístico ou linear parcial.

O Google Cloud oferece um pipeline para treinar um modelo do Prophet e um pipeline para receber previsões em lote de um modelo do Prophet. Os dois pipelines são instâncias de Vertex AI Pipelines de Componentes de Pipeline do Google Cloud (GCPC).

A integração do Prophet com a Vertex AI significa que você pode fazer o seguinte:

usar a divisão de dados e as estratégias de janelamento da Vertex AI.
Leia os dados de tabelas do BigQuery ou CSVs armazenados no Cloud Storage. A Vertex AI espera que cada linha tenha o mesmo formato da Previsão da Vertex AI.

Embora o Prophet seja um modelo multivariável, a Vertex AI é compatível apenas com uma versão univariada dele.

Benefícios

Flexível: é possível melhorar a velocidade de treinamento selecionando o hardware usado para o treinamento

Para mais informações, consulte Previsão com o Prophet.

A seguir

Saiba mais sobre machine learning com dados tabulares.
Saiba mais sobre classificação e regressão com o AutoML.
Saiba mais sobre como fazer previsões com o AutoML.
Saiba mais sobre como fazer previsões com o Prophet.
Saiba mais sobre estimativa com o BigQuery ML ARIMA_PLUS.
Saiba mais sobre os fluxos de trabalho tabulares.