Esta página foi traduzida pela API Cloud Translation.

Guia do AutoML para iniciantes

Introdução

Este guia para iniciantes apresenta o AutoML. Para entender as principais diferenças entre o AutoML e o treinamento personalizado, consulte Como escolher um método de treinamento.

Imagine só:

Você faz parte do departamento de marketing de um varejista digital.
Você está trabalhando em um projeto arquitetônico que identifica tipos de edifícios.
Sua empresa disponibiliza um formulário de contato no site.

Selecionar imagens e tabelas manualmente é uma tarefa tediosa e demorada. Ensinar um computador a identificar e sinalizar automaticamente o conteúdo.

Imagem

Você trabalha em um conselho de preservação arquitetônica que está tentando identificar bairros que tenham um estilo consistente na cidade. Você tem centenas de milhares de capturas de tela de casas para filtrar. No entanto, tentar categorizar todas essas imagens manualmente é monótono e propenso a erros. Um estagiário atribuiu identificadores a algumas centenas delas alguns meses atrás, mas ninguém mais analisou os dados. Seria tão útil se você pudesse ensinar seu computador a fazer essa análise por você!
Introdução

Tabular

Você trabalha no departamento de marketing de um varejista digital. Você e sua equipe estão criando um programa de e-mail personalizado com base nos perfis dos clientes. Você criou os perfis e os e-mails de marketing prontos para uso. Agora, você precisa criar um sistema que agrupe os clientes em cada perfil com base nas preferências de compras e no comportamento de gastos, mesmo no caso de novos clientes. Para maximizar o engajamento do cliente, você também quer prever os hábitos de consumo para otimizar quando enviar e-mails.
Introdução ao formato tabular

Como sua empresa é um varejista digital, você tem dados sobre os clientes e as compras que eles fizeram. Mas e quanto aos clientes novos? É possível calcular esses valores dos clientes atuais com longos históricos de compras usando as abordagens tradicionais. No entanto, essa abordagem não funciona quando aplicada a clientes com poucos dados históricos. E se fosse possível criar um sistema capaz de prever esses valores e acelerar a entrega de programas de marketing personalizados aos clientes?

Felizmente, o machine learning e a Vertex AI estão bem posicionados para resolver esses problemas.

Neste guia, mostramos como a Vertex AI funciona para conjuntos de dados e modelos do AutoML e ilustramos os tipos de problemas que a Vertex AI resolve.

Uma observação sobre imparcialidade

O Google tem o compromisso de fazer progresso nas práticas responsáveis de IA. Para isso, nossos produtos de ML, incluindo o AutoML, foram projetados com base em princípios básicos como imparcialidade e machine learning centrado no ser humano. Para mais informações sobre as práticas recomendadas para minimizar o viés ao criar seu próprio sistema de ML, consulte o Guia de ML inclusivo: AutoML.

Por que a Vertex AI é a ferramenta certa para esse problema?

A programação clássica requer que o programador especifique instruções passo a passo a serem seguidas. Há tanta variação de cor, ângulo, resolução e iluminação que seria necessário codificar muitas regras para ensinar uma máquina a tomar a decisão correta. É difícil imaginar por onde você começaria. Ou os comentários dos clientes usam uma estrutura e um vocabulário amplos e variados, sendo muito diversos para serem capturados por um simples conjunto de regras. Se você tentar criar filtros manuais, vai perceber rapidamente que não é possível categorizar a maioria dos comentários dos clientes. Você precisa de um sistema que generalize uma grande variedade de comentários. Em um cenário em que uma sequência de regras específicas se amplia exponencialmente, você precisa de um sistema que aprenda a partir de exemplos.

Felizmente, o machine learning resolve esses problemas.

Como a Vertex AI funciona?

A Vertex AI envolve tarefas de aprendizado supervisionado para alcançar um resultado escolhido. As especificidades dos algoritmos e dos métodos de treinamento mudam com base no tipo de dados e no caso de uso. Há muitas subcategorias diferentes de machine learning. Em cada uma delas, há diferentes soluções para problemas distintos, e o trabalho é feito dentro de restrições específicas.

Imagem

Você treina, testa e valida o modelo de machine learning com exemplos de imagens que são anotados com rótulos para classificação ou com rótulos e caixas delimitadoras para detecção de objetos. Com o aprendizado supervisionado, é possível treinar um modelo para reconhecer os padrões e o conteúdo que queremos nas imagens.

Tabular

Você treina um modelo de machine learning com dados de exemplo. A Vertex AI usa dados em tabela (estruturados) para treinar um modelo de machine learning e fazer inferências sobre novos dados. O modelo aprenderá a prever uma coluna do conjunto de dados, chamada de objetivo. Um determinado número das demais colunas de dados servem de entradas, chamadas de recursos, que o modelo usará para aprender padrões. É possível usar os mesmos atributos de entrada para criar vários tipos de modelos. Basta alterar a coluna de destino e as opções de treinamento. No exemplo de marketing de e-mail, isso significa que é possível criar modelos com os mesmos atributos de entrada, mas com inferências de destino diferentes. Um modelo pode prever o perfil de um cliente (um objetivo categórico), outro pode prever o gasto mensal (um objetivo numérico) e o outro pode prever a demanda diária dos produtos nos próximos três meses (série de objetivos numéricos).
como a tabela automl funciona

Fluxo de trabalho da Vertex AI

A Vertex AI usa um fluxo de trabalho de machine learning padrão:

Coleta de dados: determine os dados necessários para treinar e testar o modelo com base no resultado pretendido.
Preparação dos dados: verifique se os dados estão formatados e rotulados corretamente.
Treinamento: defina os parâmetros e crie o modelo.
Avaliação: analise as métricas do modelo.
Implantação e previsão: disponibilize o modelo para uso.

Preparação de dados

Mas, antes de começar a coleta dos dados, pense no problema que está tentando resolver. Isso informa seus requisitos de dados.

Avaliar o caso de uso

Comece com seu problema: qual é o resultado que você quer alcançar?

Imagem

Ao definir o conjunto de dados, sempre comece pelo caso de uso. Comece perguntando:

Que resultado você está tentando alcançar?
Que tipos de categorias ou objetos você precisa reconhecer para alcançar esse resultado?
Pessoas são capazes de reconhecer essas categorias? A Vertex AI consegue processar uma maior magnitude de categorias do que as pessoas conseguem memorizar e atribuir a qualquer momento. Se uma pessoa não consegue reconhecer uma determinada categoria, a Vertex AI também terá dificuldades em fazer isso.
Que exemplos refletem com mais precisão o tipo e o intervalo de dados que seu sistema verá e tentará classificar?

Tabular

Que tipo de dados estão na coluna de objetivo? Qual a quantidade de dados a que você tem acesso? Dependendo das suas respostas, a Vertex AI cria o modelo necessário para resolver seu caso de uso:

Um modelo de classificação binária prevê um resultado binário, ou seja, que tenha uma entre duas classes. Esse tipo de modelo é adequado para perguntas com resposta “sim” ou “não”. Por exemplo, para prever se um cliente estaria disposto (ou não) a adquirir uma assinatura. Em circunstâncias iguais, um problema de classificação binária requer menos dados do que outros tipos de modelo.
Um modelo de classificação multiclasse prevê um resultado que tenha uma entre três ou mais classes distintas. Esse tipo de modelo é adequado para categorizações. No exemplo do varejista, convém criar um modelo de classificação multiclasse para segmentar os clientes em perfis diferentes.
Um modelo de previsão prevê uma sequência de valores. Por exemplo, como varejista, você pode prever a demanda diária dos seus produtos nos próximos três meses para poder estoque adequadamente nos estoques com antecedência.
Um modelo de regressão prevê um resultado com valor contínuo. Para o exemplo de varejo, é conveniente criar um modelo de regressão para prever quanto um cliente gastará no próximo mês.

Coletar dados

Depois de estabelecer o caso de uso, colete os dados que permitem criar o modelo desejado.

Imagem

coletar dados suficientes Depois de estabelecer os dados necessários, encontre uma maneira de extraí-los. Comece considerando todos os dados que sua organização coleta. Talvez você já esteja coletando os dados relevantes necessários para treinar um modelo. Caso não tenha esses dados, é possível consegui-los manualmente ou contar com um provedor terceirizado.

Incluir exemplos rotulados suficientes em cada categoria

incluir dados suficientes O mínimo necessário para o treinamento da Vertex AI é 100 exemplos de imagens por categoria/rótulo para classificação. A probabilidade de um rótulo ser reconhecido corretamente aumenta com o número de exemplos de alta qualidade para cada um. Em geral, quanto mais dados rotulados você trouxer para o processo de treinamento, melhor será o modelo. Segmente pelo menos 1.000 exemplos por rótulo.

Distribuir exemplos igualmente entre categorias

É importante capturar quantidades similares de exemplos de treinamento para cada categoria. Mesmo que você tenha muitos dados para um único rótulo, é melhor ter uma distribuição igual para cada um deles. Para entender isso, imagine se 80% das imagens que você usar para construir um modelo forem fotos de casas unifamiliares em estilo moderno. Com uma distribuição tão desequilibrada de rótulos, é muito provável que o modelo aprenda a sempre dizer que uma foto representa uma casa unifamiliar moderna, em vez de tentar prever um rótulo muito menos comum. É como elaborar um teste de múltipla escolha em que a maioria das respostas corretas é "C". Se a pessoa que for respondê-lo tiver experiência com testes, logo perceberá que pode responder "C" todas as vezes sem nem ler a pergunta.
distribuir uniformemente

Sabemos que nem sempre é possível conseguir um número similar de exemplos para cada rótulo. Pode ser mais difícil conseguir exemplos imparciais e de alta qualidade para algumas categorias. Nessas circunstâncias, há uma regra básica a ser seguida: o rótulo com o menor número de exemplos precisa ter pelo menos 10% dos exemplos do rótulo com o maior número de exemplos. Portanto, se o maior rótulo tiver 10.000 exemplos, o menor rótulo precisa ter pelo menos 1.000 exemplos.

Capturar a variação no espaço do problema

Por motivos semelhantes, tente garantir que os dados capturem a variedade e a diversidade do espaço do seu problema. Quanto mais ampla for a seleção do processo de treinamento do modelo, mais rapidamente ele será generalizado para novos exemplos. For example, if you're trying to classify photos of consumer electronics into categories, the wider a variety of consumer electronics the model is exposed to in training, the more likely it'll be able to distinguish between a novel model of tablet, phone, or laptop, even if it's never seen that specific model before.
capturar variações

Relacionar dados à saída pretendida do modelo

relacionar dados à saída pretendida
Encontre imagens visualmente semelhantes às que você pretende usar para fazer inferências. Se você estiver tentando classificar imagens de casas tiradas no inverno e com neve, provavelmente não conseguirá um ótimo desempenho de um modelo treinado apenas com imagens de casas em dias ensolarados, mesmo que você as tenha marcado com as classes do seu interesse, porque a iluminação e o cenário podem ser diferentes o suficiente para afetar o desempenho. O ideal é que seus exemplos de treinamento sejam dados do mundo real, extraídos do mesmo conjunto de dados que você pretende usar o modelo para classificar.

Tabular

conjunto de teste Depois de estabelecer o caso de uso, será necessário coletar dados para treinar o modelo. A definição da origem de dados e a preparação são etapas fundamentais para a criação de um modelo de machine learning. Os dados disponíveis informam o tipo de problema que você pode resolver. Qual a quantidade de dados que você tem disponível? Seus dados são relevantes para as perguntas que você está tentando responder? Ao coletar seus dados, lembre-se das considerações a seguir.

Selecionar atributos relevantes

Um atributo é uma entrada usada no treinamento do modelo. Os atributos são os elementos usados pelo modelo para identificar padrões para fazer inferências. Portanto, eles precisam ser relevantes para o problema. Por exemplo, para criar um modelo que prevê se uma transação com cartão de crédito é fraudulenta ou não, será necessário criar um conjunto de dados que contenha detalhes da transação, como comprador, vendedor, valor, itens comprados, data e hora. Outros atributos possivelmente úteis são as informações históricas sobre o comprador e o vendedor e com que frequência houve fraudes na compra do item em questão. Que outros atributos talvez sejam relevantes?

Considere o caso de uso de e-mail marketing do varejista da introdução. estas são algumas colunas de atributo que provavelmente serão necessárias:

Lista de itens comprados (incluindo marcas, categorias, preços e descontos)
Número de itens comprados (último dia, semana, mês e ano)
Soma do valor gasto (último dia, semana, mês e ano)
Para cada item, número total vendido por dia
Para cada item, total em estoque a cada dia
Se você está fazendo uma promoção por um dia específico
Perfil demográfico conhecido do comprador

Incluir dados suficientes

incluir dados suficientes Em geral, quanto mais exemplos de treinamento houver, melhor serão os resultados. A quantidade necessária de dados de exemplo também aumenta ou diminui conforme a complexidade do problema que você quer solucionar. Não é necessário reunir muitos dados para ter um modelo de classificação binária preciso, em comparação à quantidade exigida por um modelo multiclasses, porque é menos complicado prever uma classe entre duas do que entre várias.

Não há uma fórmula perfeita. No entanto, há valores mínimos recomendados para os dados de exemplo:

Problema de classificação: 50 linhas x o número de recursos
Problema de previsão:

5.000 linhas x o número de atributos
10 valores exclusivos na coluna de identificador de série temporal x o número de atributos

Problema de regressão: 200 x o número de atributos

Capturar variações

É necessário que o conjunto de dados capture a diversidade do espaço do problema. Quanto mais exemplos diversos um modelo vê durante o treinamento, mais rápido ele pode generalizar para exemplos novos ou menos comuns. Imagine se o modelo de varejo fosse treinado usando apenas dados de compras no período de inverno. Ele seria capaz de prever satisfatoriamente as preferências de vestuário ou os comportamentos de consumo no verão?

Preparar os dados

Imagem

coletar dados suficientes Depois de decidir qual é a opção ideal para você, uma divisão manual ou a padrão, adicione dados à Vertex AI usando um dos seguintes métodos:

É possível importar os dados do seu computador ou do Cloud Storage em um formato disponível (CSV ou linhas JSON) com os identificadores (e caixas delimitadoras, se necessário) in-line. Para mais informações sobre o formato do arquivo de importação, consulte Como preparar os dados de treinamento. Se quiser dividir o conjunto de dados manualmente, especifique as divisões no arquivo de importação CSV ou linhas JSON.
Se os dados não foram anotados, é possível fazer upload de imagens sem rótulo e usar o console Google Cloud para aplicar anotações. É possível gerenciar essas anotações em vários conjuntos de anotações para o mesmo conjunto de imagens. Por exemplo, para um único conjunto de imagens, você pode ter um conjunto de anotações com uma caixa delimitadora e informações de rótulo para fazer a detecção de objetos, além de ter outro conjunto de anotações com apenas anotações de rótulo para classificação.

Tabular

preparar dados Depois de identificar os dados disponíveis, é necessário ter certeza de que eles estão prontos para o treinamento. Se os dados estiverem com viés ou tiverem valores ausentes ou incorretos, isso afetará a qualidade do modelo. Pense nos pontos abaixo antes de começar a treinar um modelo. Saiba mais

Evitar vazamento de dados e distorção entre treinamento e exibição

O vazamento de dados ocorre quando são usados atributos de entrada durante o treinamento que “vazam” informações sobre o objetivo que você quer prever, que não fica disponível quando o modelo é exibido. É possível detectar esse tipo de ocorrência quando um atributo altamente correlacionado com a coluna de objetivo é incluso como um dos atributos de entrada. Por exemplo, imagine que você esteja criando um modelo para prever se um cliente adquirirá uma assinatura no próximo mês e um dos atributos de entrada é um pagamento futuro pela assinatura realizado por esse cliente. Isso pode resultar em um forte desempenho do modelo durante o teste, mas não quando ele for implantado na produção, já que as informações futuras de pagamentos pela assinatura não estarão disponíveis no momento da exibição.

A distorção entre treinamento e exibição ocorre quando os atributos de entrada usados durante o treinamento são diferentes daqueles fornecidos ao modelo durante a exibição, resultando na má qualidade do modelo quando em produção. Por exemplo, criar um modelo para prever as temperaturas a cada hora, mas treiná-lo com dados que contêm apenas temperaturas por semana. Outro exemplo seria sempre fornecer as notas de um aluno nos dados de treinamento ao prever a evasão escolar, mas não fornecer essas informações no momento de exibição.

Entender os dados de treinamento é importante para evitar o vazamento de dados e a distorção entre treinamento e exibição:

Antes de usar qualquer dado, verifique se você sabe o que eles significam e se eles servem ou não como atributo.
Verifique a correlação na guia "Treinar". Correlações altas precisam ser sinalizadas para revisão.
Quanto à distorção entre treinamento e exibição, verifique se foram fornecidos ao modelo apenas atributos de entrada que estão disponíveis exatamente no mesmo formato no momento da exibição.

Limpar dados ausentes, incompletos e inconsistentes

É comum que os dados de exemplo incluam valores ausentes e imprecisos. Reserve um tempo para revisar e, se possível, melhorar a qualidade dos dados antes de usá-los no treinamento. Quanto mais valores ausentes, menos úteis serão os dados para treinar um modelo de machine learning.

Verifique seus dados quanto a valores ausentes e corrija-os, se possível, ou deixe o valor em branco se a coluna estiver definida como anulável. A Vertex AI pode cuidar de valores ausentes, mas há mais chances de você conseguir melhores resultados se todos os valores estiverem disponíveis.
Para previsão, verifique se o intervalo entre as linhas de treinamento é consistente. A Vertex AI pode cuidar de valores ausentes, mas há mais chances de você conseguir melhores resultados se todas as linhas estiverem disponíveis.
Corrija ou exclua erros ou ruídos para limpar os dados. Garanta que os dados sejam consistentes: revise a ortografia, as abreviações e a formatação.

Analisar os dados após a importação

A Vertex AI oferece uma visão geral do conjunto de dados após a importação. Revise o conjunto de dados importado para garantir que cada coluna tenha o tipo de variável correto. A Vertex AI detectará automaticamente o tipo de variável com base nos valores das colunas, mas o melhor é analisar cada uma delas. Além disso, analise em cada coluna a nulidade, que determina se uma coluna pode ter valores ausentes ou NULL.

Treinar modelo

Imagem

Pense em como a Vertex AI usa o conjunto de dados ao criar um modelo personalizado

O conjunto de dados contém conjuntos de treinamento, de validação e de teste. Se você não especificar as divisões (consulte Preparar seus dados), a Vertex AI usará automaticamente 80% das imagens para treinamento, 10% para validação e 10% para testes.
treinamento de conjuntos de testes de validação

Conjunto de treinamento

A maior parte dos dados deve estar no conjunto de treinamento. São esses os dados que seu modelo "vê" durante o treinamento e que são usados para aprender os parâmetros do modelo, ou seja, os pesos das conexões entre os nós da rede neural.

Conjunto de validação

O conjunto de validação, às vezes chamado de conjunto "dev", também é usado durante o processo de treinamento. Depois que os dados são incorporados pelo framework de aprendizado do modelo em cada iteração do processo de treinamento, o framework utiliza o desempenho do modelo no conjunto de validação para ajustar os hiperparâmetros do modelo, que são variáveis que especificam a estrutura dele. Se você tentar usar o conjunto de treinamento para ajustar os hiperparâmetros, o modelo provavelmente enfatizará os dados de treinamento de maneira excessiva e terá dificuldade para generalizar exemplos que não correspondam exatamente a eles. O modelo terá melhor capacidade de generalização se você usar um conjunto de dados relativamente novo para ajustar a estrutura do modelo.

Conjunto de teste

O conjunto de teste não faz parte do processo de treinamento. Depois que o treinamento do modelo for totalmente concluído, o conjunto de teste será usado como um novo desafio. O desempenho do modelo no conjunto de teste serve para que você tenha uma boa ideia de como será o desempenho do modelo com dados reais.

Divisão manual

Também é possível dividir o conjunto de dados por conta própria. A divisão manual de dados é uma boa opção para ter mais controle sobre o processo ou quando houver exemplos específicos que você tem certeza de que quer incluir em determinada parte do ciclo de vida do treinamento do modelo.

Tabular

Após importar o conjunto de dados, a próxima etapa é treinar um modelo. A Vertex AI gerará um modelo de machine learning confiável com os padrões de treinamento. No entanto, talvez você queira ajustar alguns dos parâmetros de acordo com seu caso de uso.

Selecione o máximo possível de colunas de atributos para o treinamento, mas analise cada uma para garantir que sejam apropriadas. Lembre-se do seguinte ao selecionar os atributos:

Não selecione colunas de atributos que vão causar ruídos, como colunas de identificador atribuídas aleatoriamente com um valor exclusivo para cada linha.
Certifique-se de entender cada coluna de recursos e os valores correspondentes.
Se você pretende criar vários modelos usando um único conjunto de dados, remova as colunas de objetivo que não fazem parte do problema de inferência atual.
Lembre-se dos princípios de imparcialidade: você está treinando o modelo com um atributo que poderia resultar em decisões enviesadas ou injustas com relação a grupos marginalizados?

Como a Vertex AI usa o conjunto de dados

O conjunto de dados é dividido em conjuntos de treinamento, validação e teste. A divisão padrão que o Vertex AI aplica depende do tipo de modelo que você está treinando. Também é possível especificar as divisões (as divisões manuais), se necessário. Para mais informações, consulte Sobre divisões de dados para modelos do AutoML. treinamento de conjuntos de testes de validação

Conjunto de treinamento

Conjunto de validação

Conjunto de teste

O conjunto de teste não faz parte do processo de treinamento. Depois que o treinamento do modelo for totalmente concluído, a Vertex AI usará o conjunto de teste como um desafio completamente novo para o modelo. O desempenho do modelo no conjunto de teste serve para que você tenha uma boa ideia de como ele vai lidar com dados reais.

Avaliar, testar e implantar seu modelo

Avaliar o modelo

Image

Depois que o treinamento do modelo for concluído, você receberá um resumo do desempenho do modelo. Clique em avaliar ou ver avaliação completa para visualizar uma análise detalhada.

coletar dados suficientes A depuração de um modelo se refere mais à depuração dos dados do que do modelo em si. A qualquer momento, se o modelo começar a agir de maneira inesperada enquanto você estiver avaliando o desempenho antes e depois da produção, volte e verifique os dados para ver como eles podem ser melhorados.

Quais tipos de análise posso executar na Vertex AI?

Na seção de avaliação da Vertex AI, é possível verificar o desempenho do modelo personalizado usando o resultado do modelo em exemplos de teste e métricas comuns de machine learning. Nesta seção, abordaremos o significado de cada um desses conceitos.

Saída
Limite de pontuação
Verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
Precisão e recall
Curvas de precisão/recall
Precisão média

Como interpretar a saída do modelo?

A Vertex AI extrai exemplos dos dados de teste para apresentar desafios totalmente novos para o modelo. Para cada exemplo, o modelo gera vários números que informam a intensidade com que cada rótulo é associado a esse exemplo. Se o número for alto, o modelo terá certeza de que o rótulo precisa ser aplicado a esse documento.
saída do modelo

Qual é o limite de pontuação?

Podemos converter essas probabilidades em valores binários "on"/"off" definindo um limite de pontuação. Esse limite se refere ao nível de confiança que o modelo precisa ter para atribuir uma categoria a um item de teste. Na console Google Cloud , o controle deslizante de limite de pontuação é uma ferramenta visual para testar o efeito de diferentes limites para todas as categorias e categorias individuais do conjunto de dados. Se o limite de pontuação for baixo, o modelo classificará mais imagens, mas haverá o risco de algumas serem classificadas incorretamente. Se o limite de pontuação for alto, o modelo classificará menos imagens, mas o risco de classificação incorreta será menor. Para testar, ajuste os limites por categoria no console Google Cloud . No entanto, ao usar o modelo na produção, é necessário aplicar os limites que você achou ideais.

pontuação limite

O que são verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos?

Depois de aplicar o limite de pontuação, as inferências feitas pelo modelo serão classificadas em uma destas quatro categorias:
os limites que você achou ideais.

verdadeiros positivos negativos

É possível usar essas categorias para calcular a precisão e o recall, métricas que nos ajudam a avaliar a eficácia do modelo.

O que são precisão e recall?

A precisão e o recall nos ajudam a entender o desempenho do modelo na captura de informações e o quanto ele está deixando de fora. A precisão indica quantos exemplos de teste realmente precisaram ser categorizados com determinado rótulo, dentre todos os que receberam um rótulo. O recall indica, de todos os exemplos de teste que deveriam ter recebido um determinado rótulo, quantos realmente foram rotulados.

precisão recall

É necessário otimizar a precisão ou o recall?

Dependendo do caso de uso, é preciso otimizar a precisão ou o recall. Considere os dois casos de uso a seguir ao decidir qual abordagem funciona melhor para você.

Caso de uso: privacidade em imagens

Suponha que você queira criar um sistema que detecte automaticamente informações sensíveis e desfoque-as.

falso positivo inofensivo
Neste caso, os falsos positivos são elementos que não precisam ser desfocados, mas são, o que pode ser irritante, mas não prejudicial.

falso negativo prejudicial

Neste caso, os falsos negativos seriam não desfocar imagens mesmo precisando desfocar, como um cartão de crédito, o que pode resultar em roubo de identidade.

Neste caso, é melhor otimizar o recall. Essa métrica mede quantos dados estão sendo deixados de fora em todas as inferências feitas. Um modelo de alto recall provavelmente identificará exemplos marginalmente relevantes. Isso é útil para casos em que sua categoria tem dados de treinamento escassos.

Caso de uso: pesquisa em banco de fotos

Suponha que você queira criar um sistema que encontre a melhor foto em um banco de fotos com uma determinada palavra-chave.

falso positivo

Neste caso, um falso positivo seria retornar uma imagem irrelevante. Como o foco do produto é retornar apenas as imagens com melhor correspondência, isso seria uma grande falha.

falso negativo

Um falso negativo seria deixar de retornar uma imagem relevante para uma pesquisa de palavra-chave. Como muitos termos de pesquisa têm milhares de fotos com um forte potencial de correspondência, não é um grande problema.

Neste caso, é melhor otimizar a precisão. Essa métrica mede, em todas as inferências feitas, o quanto elas estão corretas. Um modelo de alta precisão provavelmente rotulará apenas os exemplos mais relevantes, o que é útil para casos em que a classe é comum nos dados de treinamento.

Como usar a matriz de confusão?

matriz de confusão

Como interpretar as curvas de precisão/recall?

curvas de precisão recall
Com a ferramenta de limite de pontuação, é possível ver como a pontuação escolhida afeta a precisão e o recall. À medida que você arrasta o controle deslizante, é possível ver a posição da curva de compensação de recall e precisão, além de entender como esse limite afeta cada um deles individualmente. Para modelos com várias classes, nesses gráficos, o único rótulo usado para calcular as métricas de precisão e recall é o que apresenta melhor pontuação no conjunto de rótulos retornados. Isso pode ajudar você a encontrar um bom equilíbrio de falsos positivos e falsos negativos.

Depois de escolher um limite que pareça aceitável para o modelo como um todo, clique nos rótulos individuais e veja onde esse limite se encaixa na curva de recall e precisão de cada um. Em alguns casos, isso pode significar muitas inferências incorretas para alguns rótulos, o que pode ajudar você a escolher um limite por classe personalizado para esses rótulos. Por exemplo, no conjunto de dados de casas, há um limite de 0,5 com precisão e recall razoáveis para cada tipo de imagem, exceto "Tudor" (talvez por ser uma categoria muito genérica). Nessa categoria, há vários falsos positivos. Nesse caso, você pode decidir usar um limite de 0,8 apenas para "Tudor" quando chamar o classificador de inferências.

O que é precisão média?

Uma métrica útil para a acurácia do modelo é a área sob a curva de recall e precisão. Ela mede o desempenho do seu modelo em todos os limites de pontuação. Na Vertex AI, essa métrica é chamada de precisão média. Quanto mais próximo de 1 essa pontuação for, melhor será o desempenho do modelo no conjunto de testes. Um modelo capaz de adivinhar aleatoriamente cada rótulo teria uma precisão média em torno de 0,5.

Tabular

avaliar o modelo Após o treinamento do modelo, você receberá um resumo do desempenho dele. As métricas de avaliação são baseadas no desempenho do modelo em relação a uma parte do conjunto de dados (o conjunto de dados de teste). Há algumas métricas e conceitos importantes a serem considerados ao determinar se o modelo está pronto para ser usado em dados reais.

Métricas de classificação

Limite de pontuação

Imagine um modelo de machine learning que prevê se um cliente comprará uma jaqueta no próximo ano. Qual nível de certeza o modelo precisa ter para prever que um determinado cliente comprará uma jaqueta? Nos modelos de classificação, cada inferência recebe uma pontuação de confiança, que é uma avaliação numérica da certeza do modelo de que a classe prevista está correta. O limite de pontuação é o número que determina quando uma determinada pontuação é convertida em uma decisão de “sim” ou “não”, isto é, o valor em que o modelo diz “sim, essa pontuação de confiança é alta o suficiente para concluir que esse cliente comprará um casaco no próximo ano”.
avaliar limites

Se o limite de pontuação for baixo, o modelo correrá o risco de fazer classificações errôneas. Por isso, o limite de pontuação precisa ser baseado em um caso de uso específico.

Resultados da inferência

Depois de aplicar o limite de pontuação, as inferências feitas pelo modelo são classificadas em uma de quatro categorias. Para entender essas categorias, imagine novamente o modelo de classificação binária da jaqueta. Nesse exemplo, a classe positiva (o que a modelo está tentando prever) é que o cliente comprará uma jaqueta no próximo ano.

Verdadeiro positivo: o modelo prevê corretamente a classe positiva. O modelo previu corretamente que o cliente comprou uma jaqueta.
Falso positivo: o modelo prevê incorretamente a classe positiva. O modelo previu que o cliente compraria uma jaqueta, mas isso não ocorreu.
Verdadeiro negativo: o modelo prevê corretamente a classe negativa. O modelo previu corretamente que o cliente não comprou uma jaqueta.
Falso negativo: o modelo prevê incorretamente uma classe negativa. O modelo previu que o cliente não comprou uma jaqueta, mas o cliente comprou.

resultados da previsão

Precisão e recall

Com as métricas de precisão e recall, é possível entender o desempenho do modelo na captura de informações e o que ele está deixando de fora. Saiba mais sobre precisão e recall.

A precisão é a fração das inferências positivas que estavam corretas. De todas as inferências de uma compra feita por um cliente, qual fração foi de compras de fato realizadas?
Recall é a fração de linhas com esse rótulo que o modelo previu corretamente. De todas as compras feitas por clientes que poderiam ter sido identificadas, qual a fração das que foram identificadas de fato?

Dependendo do caso de uso, talvez seja necessário otimizar a precisão ou o recall.

Outras métricas de classificação

AUC PR: área sob curva de precisão-recall (PR, na sigla em inglês). Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
AUC ROC: área sob a curva de característica de operação do receptor (ROC, na sigla em inglês). Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
Acurácia: a fração de inferências de classificação produzidas pelo modelo que estavam corretas.
Perda de registro: a entropia cruzada entre as inferências do modelo e os valores desejados. Ela varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
Pontuação F1: média harmônica de precisão e recall. F1 é uma métrica útil quando você está procurando um equilíbrio entre precisão e recall e a distribuição de classes é desigual.

Métricas de previsão e regressão

Após a criação do modelo, o Vertex AI fornece uma variedade de métricas padrão para análise. Não há uma resposta perfeita sobre como avaliar seu modelo. Considere as métricas de avaliação de acordo com seu tipo de problema e o que você quer alcançar com o modelo. A lista a seguir apresenta uma visão geral de algumas métricas que a AIte AI pode fornecer.

Erro médio absoluto (MAE)

O erro médio absoluto (MAE, na sigla em inglês) é a diferença média absoluta entre os valores de objetivo e previstos. Essa métrica mede a magnitude média dos erros (a diferença entre um valor de objetivo e um valor previsto) em um conjunto de inferências. Como essa métrica usa valores absolutos, o MAE não considera a direção da relação nem indica o desempenho abaixo ou acima do esperado. Ao avaliar o MAE, um valor menor indica um modelo de maior qualidade (0 representa um preditor perfeito).

Raiz do erro médio quadrático (REMQ)

A raiz do erro médio quadrático (REMQ) é a raiz quadrada da diferença média ao quadrado entre os valores de objetivo e previstos. A REMQ é mais sensível a outliers do que o MAE. Portanto, se houver a preocupação com erros grandes, talvez seja mais útil avaliar a REMQ. Assim como no caso do MAE, um valor menor indica um modelo de maior qualidade (0 representa um preditor perfeito).

Raiz do erro médio quadrático e logarítmico (RMSLE)

A raiz do erro quadrático e logarítmico (RMSLE, na sigla em inglês) é a REMQ em escala logarítmica. A RMSLE é mais sensível a erros relativos do que erros absolutos e enfoca mais o desempenho insatisfatório do que o desempenho acima do esperado.

Quanta observada (somente previsão)

Para um quantil de destino determinado, o quantil observado mostra o número real de valores observados abaixo dos valores de inferência de quantil especificados. O quantil observado mostra a distância entre o modelo e o quantil desejado. Uma diferença menor entre os dois valores indica um modelo de qualidade superior.

Perda de pinball em escala (somente previsão)

Mede a qualidade de um modelo em um determinado quantil de destino. Um número menor indica um modelo de qualidade superior. É possível comparar a métrica da perda de pinball em vários quantis para determinar a precisão relativa do seu modelo entre esses quantis diferentes.

Testar o modelo

Imagem

Para testar o modelo, a Vertex AI usa 10% dos dados automaticamente ou, se você escolher dividir os dados, qualquer porcentagem que você escolheu usar. Na página "Avaliar", você vê o desempenho do modelo nos dados de teste. Se você quiser, há algumas maneiras de verificar a confiança do modelo. A mais fácil é fazer upload de algumas imagens na página "Implantar e testar" e observar os rótulos escolhidos pelo modelo para seus exemplos. Com sorte, eles vão corresponder às suas expectativas. Teste alguns exemplos de cada tipo de imagem que você espera receber.

Se você quiser usar seu modelo em testes automatizados, a página "Implantar e testar" também informa como fazer chamadas para o modelo programaticamente.

Tabular

Avaliar as métricas do modelo significa, antes de mais nada, determinar se o modelo está pronto para ser implantado. No entanto, também é possível testá-lo com dados novos. Faça o upload de novos dados para ver se as inferências do modelo correspondem às suas expectativas. Com base nas métricas de avaliação ou nos testes com dados novos, talvez seja necessário aprimorar mais o desempenho do modelo.

Implantar seu modelo

Imagem

Quando o desempenho for satisfatório para você, será hora de usar o modelo. Isso pode significar o uso em escala de produção ou talvez seja uma solicitação de inferência única. Dependendo do caso de uso, o modelo poderá ser usado de maneiras diferentes.

Inferência em lote

A inferência em lote é útil para fazer muitas solicitações de inferência de uma só vez. A inferência em lote é assíncrona, ou seja, o modelo vai aguardar até que todas as solicitações de inferência sejam processadas antes de retornar um arquivo JSON Lines com valores de inferência.

Inferência on-line

Implante seu modelo para disponibilizá-lo para solicitações de inferência usando uma API REST. A inferência on-line é síncrona (em tempo real), o que significa que ela vai retornar rapidamente um resultado de inferência. No entanto, ela aceita apenas uma solicitação por chamada de API. A inferência on-line é útil quando o modelo faz parte de um aplicativo e há elementos do sistema que dependem de um retorno rápido da inferência.

Tabular

Quando o desempenho for satisfatório para você, será hora de usar o modelo. Isso pode significar o uso em escala de produção ou talvez em uma única solicitação de inferência. Dependendo do caso de uso, o modelo poderá ser usado de maneiras diferentes.

Inferência em lote

A inferência em lote é útil para fazer muitas solicitações de inferência de uma só vez. A inferência em lote é assíncrona, o que significa que o modelo aguardará o processamento de todas as solicitações de inferência antes de gerar resultados em um arquivo CSV ou uma tabela do BigQuery com os valores de inferência.

Inferência on-line

Implante seu modelo para disponibilizá-lo para solicitações de inferência usando uma API REST. A inferência on-line é síncrona (em tempo real), o que significa que ela retornará rapidamente uma inferência. No entanto, ela aceita apenas uma solicitação por chamada de API. A inferência on-line é útil quando o modelo faz parte de um aplicativo e há elementos do sistema que dependem de um retorno rápido da inferência.

Limpar

Para evitar cobranças indesejadas, cancele a implantação do modelo quando ele não estiver em uso.

Quando terminar de usar o modelo, exclua os recursos criados para evitar cobranças indesejadas na conta.