Recursos e funcionalidades do AutoML Tables

Nesta página, você saberá como você e sua equipe poderão usar o AutoML Tables para criar modelos de alto desempenho a partir de dados em tabelas.

Consulte a página Problemas conhecidos para ver os problemas atualmente conhecidos e saber como evitá-los ou remediá-los.

O AutoML Tables é um Serviço coberto pelas obrigações do Google estabelecidas nos Termos de segurança e processamento de dados.

Suporte a dados

Com o AutoML Tables, é possível criar dados de treinamento limpos e eficazes, bastando fornecer informações sobre dados ausentes, correlação, cardinalidade e distribuição de cada um dos atributos. Como não há custos para importar os dados e visualizar as informações associadas a eles, você não será cobrado pelo uso do AutoML Tables até começar a treinar modelos.

Engenharia de atributos

Quando você inicia o treinamento, o AutoML Tables realiza automaticamente algumas tarefas comuns de engenharia de atributos, incluindo:

  • normalização e divisão de recursos numéricos em intervalos;
  • criação de codificação one-hot e embeddings para atributos categóricos;
  • processamento básico de atributos de texto;
  • extração de atributos relacionados a data e hora de colunas de carimbo de data/hora.

Para saber mais, consulte Preparação dos dados que o AutoML Tables faz automaticamente.

Treinamento de modelo

Teste de modelos em paralelo

Quando você inicia o treinamento do modelo, o AutoML Tables utiliza seu conjunto de dados para treinar várias arquiteturas de modelo ao mesmo tempo. Essa abordagem permite que o AutoML Tables determine a melhor arquitetura de modelo para seus dados rapidamente, sem a necessidade de fazer iterações em série com as muitas arquiteturas de modelo possíveis. Os testes das arquiteturas de modelo do AutoML Tables incluem:

  • Linear
  • Rede neural profunda feedforward
  • Gradient Boosting Decision Tree
  • AdaNet
  • Ensembles de várias arquiteturas de modelo

À medida que a comunidade de pesquisa desenvolver novas arquiteturas de modelo, nós as incluiremos no AutoML Tables.

Avaliação de modelos e criação de modelo final

Usamos conjuntos de treinamento e validação para definir a melhor arquitetura de modelo para seus dados. Em seguida, treinamos mais dois modelos usando os parâmetros e a arquitetura definidos na fase de testes paralelos:

  1. Um modelo treinado com seus conjuntos de treinamento e validação.

    O AutoML Tables usa o conjunto de testes para realizar a avaliação desse modelo.

  2. Um modelo treinado com os conjuntos de treinamento, validação e teste.

    Esse será o modelo fornecido para fazer predições.

Como escolher entre o AutoML Tables e o BigQuery ML

Convém usar o BigQuery ML se você apenas quiser usar tipos de modelo mais simples, como de regressão logística, para a iteração ou experimentação rápida para seleção de quais dados incluir em um modelo.

Entretanto, o ideal é trabalhar diretamente na interface do AutoML Tables quando os dados já estão finalizados e você pretende fazer o seguinte:

  • Otimizar para maximizar a qualidade do modelo (acurácia, REMQ baixa etc.) sem a necessidade de realizar manualmente tarefas de engenharia de atributos, seleção de modelo, criar ensembles etc.

  • Aguardar um tempo maior para chegar à qualidade de modelo pretendida. O AutoML Tables leva pelo menos uma hora para treinar um modelo, porque faz experimentos com muitas opções. O BigQuery ML geralmente retorna modelos em minutos, porque adere às arquiteturas de modelo, valores de parâmetro e intervalos definidos por você.

  • Usar uma ampla variedade de entradas de atributos, acima dos números e classes, que podem se beneficiar dos outros recursos de engenharia de atributos, oferecidos pelo AutoML Tables.

Transparência do modelo e Cloud Logging

É possível ver a estrutura do modelo do AutoML Tables usando o Cloud Logging. No Logging, você consegue ver os hiperparâmetros do modelo final, além dos hiperparâmetros e valores objetivos usados durante a validação do modelo.

Veja mais informações em Logging.

Explicabilidade

Sabemos que você precisa conseguir explicar como seus dados se relacionam com o modelo final e com as previsões feitas por ele. Fornecemos a você duas maneiras principais de ter insights sobre o modelo e de como ele opera:

Exportação de dados de teste

É possível exportar o conjunto de teste com as previsões feitas pelo seu modelo. Essa funcionalidade apresenta insights sobre o desempenho do seu modelo nas linhas individuais dos dados de treinamento. O exame do conjunto de teste e dos respectivos resultados pode ajudar você a entender os tipos de previsões em que seu modelo apresenta desempenho insatisfatório e oferecer pistas sobre como melhorar os dados para um modelo de qualidade superior.