Introdução aos algoritmos integrados

Nesta página, você encontra uma visão geral do treinamento com algoritmos integrados. Com os algoritmos integrados no AI Platform Training, é possível executar jobs de treinamento nos seus dados sem escrever código para um aplicativo de treinamento. Envie os dados de treinamento, selecione um algoritmo e permita que o AI Platform Training realize o pré-processamento e o treinamento para você. Depois disso, é fácil implantar seu modelo e fazer previsões no AI Platform Training.

Como funciona o treinamento com algoritmos integrados

O AI Platform Training executa o job de treinamento nos recursos de computação na nuvem. Este é o processo geral:

  1. Compare os algoritmos integrados disponíveis para determinar se eles são adequados ao seu conjunto de dados e caso de uso específicos.
  2. Formate os dados de entrada para realizar o treinamento com o algoritmo integrado. É necessário enviar os dados como um arquivo CSV com a linha de cabeçalho removida, e a coluna de destino precisa ser definida como a primeira coluna. Se aplicável, siga os requisitos de formatação complementares específicos para o algoritmo integrado que está sendo usado.
  3. Crie um bucket do Cloud Storage em que o AI Platform Training armazenará a saída do treinamento, se ainda não tiver feito isso.
  4. Selecione opções para personalizar o job de treinamento. Primeiro, configure o job geral e depois faça outras seleções para definir o algoritmo especificamente. Outra opção é fazer mais seleções para configurar o ajuste de hiperparâmetros do job.
    • Para o job de treinamento geral, selecione o nome dele, o algoritmo integrado que será usado, a(s) máquina(s) para uso, a região de execução do job e o local do bucket do Cloud Storage onde você quer que o AI Platform Training armazene as saídas de treinamento.
    • Para as seleções específicas do algoritmo, é possível ativar o AI Platform Training para executar o pré-processamento automático no conjunto de dados. Também é possível especificar argumentos como taxa de aprendizado, etapas de treinamento e tamanho do lote.
    • No ajuste de hiperparâmetros, é possível selecionar uma métrica de objetivo, como aumentar a acurácia preditiva do modelo ou minimizar a perda de treinamento. Além disso, você pode ajustar hiperparâmetros específicos e definir intervalos para os valores.
  5. Envie o job de treinamento e veja os registros para monitorar o progresso e o status dele.
  6. Quando ele for concluído, implante seu modelo treinado no AI Platform Training para configurar um servidor de previsão e fazer previsões com base nos novos dados.

Limitações

Considere as seguintes limitações no treinamento com algoritmos integrados:

Você encontra todas as outras limitações de algoritmos integrados específicos nos guias correspondentes.

Ajuste de hiperparâmetros

O ajuste de hiperparâmetro é compatível com o treinamento com algoritmos internos. Primeiro, especifique uma métrica de objetivo e informe se é para reduzi-la ou aumentá-la. Você pode maximizar a precisão do seu modelo para classificação ou minimizar sua perda de treinamento. Depois, liste os hiperparâmetros que você quer ajustar, além de um valor de destino para cada um deles.

Quando você envia o job de treinamento com ajuste de hiperparâmetros, o AI Platform Training executa vários testes, rastreando e ajustando os hiperparâmetros após cada teste. Quando o job de ajuste de hiperparâmetros é concluído, o AI Platform Training informa os valores da configuração mais eficaz dos seus hiperparâmetros. Ele também apresenta um resumo de cada teste.

Saiba mais sobre o ajuste de hiperparâmetros no AI Platform Training.

Visão geral dos algoritmos

Com os algoritmos integrados, você treina modelos em vários casos de uso que costumam ser resolvidos com classificação e regressão. Os algoritmos integrados a seguir estão disponíveis para treinamento no AI Platform Training:

  • Aprendizagem linear
  • Amplitude e profundidade
  • TabNet
  • XGBoost
  • Classificação de imagens
  • Detecção de objetos

Aprendizado linear

O algoritmo integrado de aprendizagem linear é usado na regressão logística, além das classificações binária e multiclasse. O AI Platform Training usa uma implementação baseada em um TensorFlow Estimator.

Um modelo de aprendizagem linear atribui um peso a cada atributo de entrada e os soma para prever um valor numérico de destino. Na regressão logística, esse valor é convertido em um entre 0 e 1. Esse tipo simples de modelo é fácil de interpretar porque você compara os pesos dos atributos para determinar quais atributos de entrada têm um grande impacto nas predições.

Saiba mais sobre como modelos lineares em grande escala funcionam.

Amplitude e profundidade

O algoritmo integrado de amplitude e profundidade é usado nos problemas em grande escala de classificação e regressão como sistemas de recomendação, pesquisa e problemas de classificação. O AI Platform Training usa uma implementação baseada em um TensorFlow Estimator.

Esse tipo de modelo combina um modelo linear que aprende e "memoriza" uma ampla variedade de regras com uma rede neural profunda. Ela, por sua vez, "generaliza" as regras e as aplica corretamente a atributos semelhantes em dados novos e não vistos.

Saiba mais sobre o aprendizado amplo e profundo.

TabNet

O algoritmo integrado TabNet é usado para problemas de classificação e regressão em dados tabulares. O AI Platform Training usa uma implementação baseada no TensorFlow.

O algoritmo integrado do TabNet também conta com atribuições de recursos para interpretar o comportamento do modelo e explicar as previsões dele.

Saiba mais sobre o TabNet como um novo algoritmo integrado.

XGBoost

O XGBoost (eXtreme Gradient Boosting) é um framework que implementa um algoritmo de aumento de gradiente. O XGBoost possibilita um aprendizado supervisionado eficiente nas tarefas de classificação, regressão e ranking. O treinamento do XGBoost é baseado em ensembles de árvores de decisão, que combinam os resultados de vários modelos de classificação e regressão.

Saiba mais sobre como o XGBoost funciona.

Classificação de imagens

O algoritmo integrado de detecção de imagens usa os modelos de classificação de imagem do TensorFlow. É possível treinar um modelo de classificação de imagem com base em uma implementação do TensorFlow do EfficNet ou ResNet.

Detecção de objetos

O algoritmo integrado de detecção de objetos usa a API TensorFlow Object Detection para criar um modelo capaz de identificar vários objetos em uma única imagem.

Como comparar algoritmos integrados

Na tabela a seguir, você vê uma comparação rápida dos algoritmos integrados:

Nome do algoritmo Modelo de ML usado Tipo de problema Exemplos de casos de uso Aceleradores compatíveis para treinamento
Aprendizagem linear TensorFlow Estimator
LinearClassifier e LinearRegressor.
Classificação, regressão Previsão de vendas GPU
Amplitude e profundidade Estimator do TensorFlow
DNNLinearCombineClassifier, DNNLinearCombineEstimator e DNNLinearCommonRegressor.
Classificação, regressão, ranking Sistemas de recomendação, pesquisa GPU
TabNet Estimator do TensorFlow Classificação, regressão Previsão de taxas de cliques (CTR, na sigla em inglês), detecção de fraudes GPU
XGBoost XGBoost Classificação, regressão Previsão de taxas de cliques (CTR, na sigla em inglês) de publicidade GPU (suporte apenas na versão distribuída do algoritmo)
Classificação de imagens Modelos de classificação de imagem do TensorFlow Classificação Como classificar imagens GPU, TPU
Detecção de objetos API TensorFlow Object Detection Detecção de objetos Como detectar objetos em cenas de imagens complexas GPU, TPU

Contêineres de algoritmos

Ao enviar o job de treinamento para o AI Platform Training, você seleciona o algoritmo especificando o URI para o contêiner correspondente do Docker hospedado no Container Registry. Os algoritmos integrados estão disponíveis por meio dos contêineres a seguir:

Algoritmo URI do Container Registry
Aprendizagem linear gcr.io/cloud-ml-algos/linear_learner_cpu:latest
gcr.io/cloud-ml-algos/linear_learner_gpu:latest
Amplitude e profundidade gcr.io/cloud-ml-algos/wide_deep_learner_cpu:latest
gcr.io/cloud-ml-algos/wide_deep_learner_gpu:latest
TabNet gcr.io/cloud-ml-algos/tab_net:latest
XGBoost gcr.io/cloud-ml-algos/boosted_trees:latest
gcr.io/cloud-ml-algos/xgboost_dist:latest
Classificação de imagens gcr.io/cloud-ml-algos/image_classification:latest
Detecção de objetos gcr.io/cloud-ml-algos/image_object_detection:latest

A seguir