Avaliação de modelos na Vertex AI

O serviço de avaliação de IA preditiva permite avaliar o desempenho do modelo em casos de uso específicos. A avaliação também pode ser chamada de observabilidade do desempenho de um modelo. A avaliação do modelo fornecida pela Vertex AI pode se encaixar no fluxo de trabalho típico de machine learning de várias maneiras:

Depois de treinar o modelo, analise as métricas de avaliação dele antes de implantar o modelo. É possível comparar métricas de avaliação em vários modelos para ajudar a decidir qual modelo implantar.
Depois que o modelo for implantado para produção, avalie periodicamente seu modelo com novos dados de entrada. Se as métricas de avaliação mostrarem que o desempenho do modelo está degradando, treine novamente seu modelo. Esse processo é chamado de avaliação contínua.

A forma como você interpreta e usa essas métricas depende das necessidades do seu negócio e do problema que seu modelo é treinado para solucionar. Por exemplo, você pode ter uma tolerância menor a falsos positivos do que para falsos negativos ou vice-versa. Esses tipos de perguntas afetam as métricas que você deve priorizar ao iterar seu modelo.

Algumas das principais métricas fornecidas pelo serviço de avaliação de modelos de IA preditiva incluem o seguinte:

Recursos

Para avaliar um modelo com a Vertex AI, você precisa ter um modelo treinado, uma saída de previsão em lote e um conjunto de dados de informações empíricas. Veja a seguir um fluxo de trabalho de avaliação de modelo típico usando a Vertex AI:

Treinar um modelo. É possível fazer isso na Vertex AI usando o AutoML ou treinamento personalizado.
Executar um job de previsão em lote no modelo para gerar resultados de previsão.
Prepare os dados de informações empíricas, que são os dados "rotulados corretamente", conforme determinado por humanos. A informação empírica geralmente fica na forma do conjunto de dados de teste que você usou durante o processo de treinamento do modelo.
Executar um job de avaliação no modelo, que avalia a precisão dos resultados da previsão em lote em comparação com os dados de informações empíricas.
Analise as métricas resultantes do job de avaliação.
Itere no seu modelo para ver se é possível melhorar a acurácia dele. É possível executar vários jobs de avaliação e comparar os resultados de vários jobs em modelos ou versões de modelo.

É possível executar a avaliação do modelo na Vertex AI de várias maneiras:

Crie avaliações pelo Vertex AI Model Registry no Console do Google Cloud.
Use as avaliações de modelo da Vertex AI como um componente de pipeline com o Vertex AI Pipelines. É possível criar execuções de pipeline e modelos que incluem avaliações de modelo como parte do fluxo de trabalho de MLOps automatizado.

É possível executar o componente de avaliação de modelo sozinho ou com outros componentes do pipeline, como o componente de previsão em lote.

A Vertex AI é compatível com a avaliação dos seguintes tipos de modelo:

Imagem

Classificação

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC: a área sob a curva de precisão/recall (PR, na sigla em inglês), também conhecida como precisão média. Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
Log Perda: a entropia cruzada entre as predições do modelo e os valores do objetivo. Ela varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
Limite de confiança: uma pontuação de confiança que determina quais previsões serão retornadas. Um modelo retorna previsões que têm esse valor ou um valor maior. Um limite de confiança maior aumenta a precisão, mas diminui o recall. A Vertex AI retorna métricas de confiança em valores de limite diferentes para mostrar como o limite afeta a precisão e o recall.
Recall: a fração de predições com esta classe que o modelo previu corretamente. Também chamado de taxa de verdadeiro positivo.
Precisão: a fração de predições de classificação produzidas pelo modelo que estavam corretas.
Matriz de confusão: uma matriz de confusão mostra com que frequência um modelo previu corretamente um resultado. Para resultados previstos incorretamente, a matriz mostra o que o modelo previu. A matriz de confusão ajuda a entender onde o modelo "confunde" dois resultados.

Tabular

Classificação

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC: a área sob a curva de precisão/recall (PR, na sigla em inglês), também conhecida como precisão média. Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
AuROC: a área sob a curva de característica de operação do receptor. Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
Log Perda: a entropia cruzada entre as predições do modelo e os valores do objetivo. Ela varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
Limite de confiança: uma pontuação de confiança que determina quais previsões serão retornadas. Um modelo retorna previsões que têm esse valor ou um valor maior. Um limite de confiança maior aumenta a precisão, mas diminui o recall. A Vertex AI retorna métricas de confiança em valores de limite diferentes para mostrar como o limite afeta a precisão e o recall.
Recall: a fração de predições com esta classe que o modelo previu corretamente. Também chamado de taxa de verdadeiro positivo.
Recall em 1: o recall (taxa de verdadeiro positivo) ao considerar apenas o rótulo que tem a maior pontuação de previsão e não abaixo do limite de confiança de cada exemplo.
Precisão: a fração de predições de classificação produzidas pelo modelo que estavam corretas.
Precisão em 1: a precisão ao considerar apenas o rótulo que tem a maior pontuação de previsão e não abaixo do limite de confiança de cada exemplo.
Pontuação F1: a média harmônica de precisão e recall. F1 é uma métrica útil quando você está procurando um equilíbrio entre precisão e recall e a distribuição de classes é desigual.
Pontuação F1 em 1: a média harmônica de recall em 1 e precisão em 1.
Matriz de confusão: uma matriz de confusão mostra com que frequência um modelo previu corretamente um resultado. Para resultados previstos incorretamente, a matriz mostra o que o modelo previu. A matriz de confusão ajuda a entender onde o modelo "confunde" dois resultados.
Contagem de verdadeiro negativo: o número de vezes que um modelo previu corretamente uma classe negativa.
Contagem de verdadeiro positivo: o número de vezes que um modelo previu corretamente uma classe positiva.
Contagem de falso negativo: o número de vezes que um modelo previu incorretamente uma classe negativa.
Contagem de falso positivo: o número de vezes que um modelo previu incorretamente uma classe positiva.
Taxa de falso positivo: a fração de resultados previstos incorretamente de todos os resultados previstos.
Taxa de falso positivo em 1: a taxa de falso positivo ao considerar apenas o rótulo que tem o maior índice de previsão e não abaixo do limite de confiança de cada exemplo.
Atribuições de recursos de modelo: a Vertex AI mostra o quanto cada recurso afeta um modelo. Os valores são fornecidos como uma porcentagem para cada atributo: quanto maior a porcentagem, mais impacto o recurso teve no treinamento do modelo. Analise essas informações para garantir que todos os atributos mais importantes estejam coerentes com os dados e o problema da empresa.

Regressão

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE: erro médio absoluto (MAE, na sigla em inglês) é a diferença média absoluta entre valores desejados e valores previstos. Essa métrica varia de zero a infinito. Um valor menor indica um modelo de qualidade superior.
RMSE: a raiz do erro médio quadrado é a raiz quadrada da diferença média quadrática entre os valores de destino e previstos. A REMQ é mais sensível a outliers do que o MAE. Portanto, se você estiver preocupado com erros grandes, talvez seja mais útil avaliar a REMQ. Assim como no caso do MAE, um valor menor indica um modelo de maior qualidade (0 representa um preditor perfeito).
RMSLE: a métrica de raiz do erro médio quadrado e logarítmico é semelhante à RMSE. A diferença é que é usado o logaritmo natural de valores previstos e valores reais mais 1. A RMSLE penaliza com mais intensidade a subestimação do que a superestimação. Esta também pode ser uma boa métrica quando você não quer penalizar as diferenças de grandes valores de previsão com mais intensidade do que para pequenos valores de previsão. Essa métrica varia de zero a infinito. Um valor menor indica um modelo de qualidade superior. A métrica de avaliação RMSLE é retornada somente se todos os rótulos e valores previstos forem não negativos.
r^2: r ao quadrado (r^2) é o quadrado do coeficiente de correlação de Pearson entre os rótulos e os valores previstos. A métrica varia de zero a um. Um valor maior indica um ajuste mais próximo da linha de regressão.
MAPE: o erro absoluto médio percentual (MAPE, na sigla em inglês) é a diferença percentual absoluta média entre os rótulos e os valores previstos. Esta métrica varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
O MAPE não é exibido se na coluna de destino houver algum valor zero. Nesse caso, o MAPE será indefinido.
Atribuições de recursos de modelo: a Vertex AI mostra o quanto cada recurso afeta um modelo. Os valores são fornecidos como uma porcentagem para cada atributo: quanto maior a porcentagem, mais impacto o recurso teve no treinamento do modelo. Analise essas informações para garantir que todos os atributos mais importantes estejam coerentes com os dados e o problema da empresa.

Previsão

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE: erro médio absoluto (MAE, na sigla em inglês) é a diferença média absoluta entre valores desejados e valores previstos. Essa métrica varia de zero a infinito. Um valor menor indica um modelo de qualidade superior.
RMSE: a raiz do erro médio quadrado é a raiz quadrada da diferença média quadrática entre os valores de destino e previstos. A REMQ é mais sensível a outliers do que o MAE. Portanto, se você estiver preocupado com erros grandes, talvez seja mais útil avaliar a REMQ. Assim como no caso do MAE, um valor menor indica um modelo de maior qualidade (0 representa um preditor perfeito).
RMSLE: a métrica de raiz do erro médio quadrado e logarítmico é semelhante à RMSE. A diferença é que é usado o logaritmo natural de valores previstos e valores reais mais 1. A RMSLE penaliza com mais intensidade a subestimação do que a superestimação. Esta também pode ser uma boa métrica quando você não quer penalizar as diferenças de grandes valores de previsão com mais intensidade do que para pequenos valores de previsão. Essa métrica varia de zero a infinito. Um valor menor indica um modelo de qualidade superior. A métrica de avaliação RMSLE é retornada somente se todos os rótulos e valores previstos forem não negativos.
r^2: r ao quadrado (r^2) é o quadrado do coeficiente de correlação de Pearson entre os rótulos e os valores previstos. A métrica varia de zero a um. Um valor maior indica um ajuste mais próximo da linha de regressão.
MAPE: o erro absoluto médio percentual (MAPE, na sigla em inglês) é a diferença percentual absoluta média entre os rótulos e os valores previstos. Esta métrica varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
O MAPE não é exibido se na coluna de destino houver algum valor zero. Nesse caso, o MAPE será indefinido.
WAPE: o erro percentual médio ponderado (WAPE, na sigla em inglês) é a diferença geral entre o valor previsto por um modelo e os valores observados sobre os valores observados. Em comparação com a REMQ, o WAPE é ponderado de acordo com as diferenças gerais, em vez de diferenças individuais, que podem ser altamente influenciadas por valores baixos ou intermitentes. Um valor menor indica um modelo de qualidade superior.
RMSPE: a raiz do erro percentual médio (RMPSE, na sigla em inglês) mostra a REMQ como uma porcentagem dos valores reais em vez de um número absoluto. Um valor menor indica um modelo de qualidade superior.
Quantile: o percentual de quantile, que indica a probabilidade de um valor observado estar abaixo do valor previsto. Por exemplo, no quantificador de 0,5, os valores observados devem ser menores do que os valores previstos 50% das vezes.
Quantil observado: mostra a porcentagem de valores verdadeiros menores que o valor previsto para um determinado quantil.
Perda de pinball em escala: a perda de pinball em um quantil específico. Um valor menor indica um modelo de qualidade superior no quantil fornecido.

Texto

A partir de 15 de setembro de 2024, só será possível personalizar a classificação, a extração de entidades, e os objetivos de análise de sentimento por meio da migração para os comandos e os ajustes do Vertex AI Gemini. O treinamento ou atualização de modelos do AutoML na Vertex AI para classificação de texto, extração de entidades e objetivos de análise de sentimento não estarão mais disponíveis. É possível continuar usando os modelos de AutoML Text na Vertex AI até 15 de junho de 2025. Para uma comparação entre o AutoML Text e o Gemini, consulte Gemini para usuários de texto do AutoML. Para mais informações sobre como o Gemini oferece uma experiência do usuário aprimorada com recursos aprimorados de comandos, consulte Introdução aos ajustes. Para começar a ajustar, consulte Ajuste de modelos de texto do Gemini

Classificação

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC: a área sob a curva de precisão/recall (PR, na sigla em inglês), também conhecida como precisão média. Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
Log Perda: a entropia cruzada entre as predições do modelo e os valores do objetivo. Ela varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
Limite de confiança: uma pontuação de confiança que determina quais previsões serão retornadas. Um modelo retorna previsões que têm esse valor ou um valor maior. Um limite de confiança maior aumenta a precisão, mas diminui o recall. A Vertex AI retorna métricas de confiança em valores de limite diferentes para mostrar como o limite afeta a precisão e o recall.
Recall: a fração de predições com esta classe que o modelo previu corretamente. Também chamado de taxa de verdadeiro positivo.
Recall em 1: o recall (taxa de verdadeiro positivo) ao considerar apenas o rótulo que tem a maior pontuação de previsão e não abaixo do limite de confiança de cada exemplo.
Precisão: a fração de predições de classificação produzidas pelo modelo que estavam corretas.
Precisão em 1: a precisão ao considerar apenas o rótulo que tem a maior pontuação de previsão e não abaixo do limite de confiança de cada exemplo.
Matriz de confusão: uma matriz de confusão mostra com que frequência um modelo previu corretamente um resultado. Para resultados previstos incorretamente, a matriz mostra o que o modelo previu. A matriz de confusão ajuda a entender onde o modelo "confunde" dois resultados.
Pontuação F1: a média harmônica de precisão e recall. F1 é uma métrica útil quando você está procurando um equilíbrio entre precisão e recall e a distribuição de classes é desigual.
Pontuação F1 em 1: a média harmônica de recall em 1 e precisão em 1.

Vídeo

Classificação

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

AuPRC: a área sob a curva de precisão/recall (PR, na sigla em inglês), também conhecida como precisão média. Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
Limite de confiança: uma pontuação de confiança que determina quais previsões serão retornadas. Um modelo retorna previsões que têm esse valor ou um valor maior. Um limite de confiança maior aumenta a precisão, mas diminui o recall. A Vertex AI retorna métricas de confiança em valores de limite diferentes para mostrar como o limite afeta a precisão e o recall.
Recall: a fração de predições com esta classe que o modelo previu corretamente. Também chamado de taxa de verdadeiro positivo.
Precisão: a fração de predições de classificação produzidas pelo modelo que estavam corretas.
Matriz de confusão: uma matriz de confusão mostra com que frequência um modelo previu corretamente um resultado. Para resultados previstos incorretamente, a matriz mostra o que o modelo previu. A matriz de confusão ajuda a entender onde o modelo "confunde" dois resultados.
Pontuação F1: a média harmônica de precisão e recall. F1 é uma métrica útil quando você está procurando um equilíbrio entre precisão e recall e a distribuição de classes é desigual.

Avaliação de modelos na Vertex AI

Recursos

Imagem

Classificação

Tabular

Classificação

Regressão

Previsão

Texto

Classificação

Vídeo

Classificação

Tutoriais de notebook

AutoML: Tabular

AutoML: Text

AutoML: Video

Treinamento personalizado: tabular

Vertex AI Model Registry

A seguir