Avaliação de modelos na Vertex AI

A Vertex AI conta com métricas de avaliação de modelo, como precisão e recall, que ajudam a determinar o desempenho dos modelos.

A avaliação do modelo fornecida pela Vertex AI pode se encaixar no fluxo de trabalho típico de machine learning de várias maneiras:

  1. Depois de treinar o modelo, analise as métricas de avaliação dele antes de implantar o modelo. É possível comparar métricas de avaliação em vários modelos para ajudar a decidir qual modelo implantar.

  2. Depois que o modelo for implantado para produção, avalie periodicamente seu modelo com novos dados de entrada. Se as métricas de avaliação mostrarem que o desempenho do modelo está degradando, treine novamente seu modelo. Esse processo é chamado de avaliação contínua.

A forma como você interpreta e usa essas métricas depende das necessidades do seu negócio e do problema que seu modelo é treinado para solucionar. Por exemplo, você pode ter uma tolerância menor a falsos positivos do que para falsos negativos ou vice-versa. Esses tipos de perguntas afetam as métricas que você deve priorizar ao iterar seu modelo.

Recursos

Para avaliar um modelo com a Vertex AI, você precisa ter um modelo treinado, uma saída de previsão em lote e um conjunto de dados de informações empíricas. Veja a seguir um fluxo de trabalho de avaliação de modelo típico usando a Vertex AI:

  1. Treinar um modelo. É possível fazer isso na Vertex AI usando o AutoML ou treinamento personalizado.

  2. Executar um job de previsão em lote no modelo para gerar resultados de previsão.

  3. Prepare os dados de informações empíricas, que são os dados "rotulados corretamente", conforme determinado por humanos. A informação empírica geralmente fica na forma do conjunto de dados de teste que você usou durante o processo de treinamento do modelo.

  4. Executar um job de avaliação no modelo, que avalia a precisão dos resultados da previsão em lote em comparação com os dados de informações empíricas.

  5. Analise as métricas resultantes do job de avaliação.

  6. Itere no seu modelo para ver se é possível melhorar a acurácia dele. É possível executar vários jobs de avaliação e comparar os resultados de vários jobs em modelos ou versões de modelo.

É possível executar a avaliação do modelo na Vertex AI de várias maneiras:

A Vertex AI é compatível com a avaliação dos seguintes tipos de modelo:

Image

Classificação

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: a área sob a curva de precisão/recall (PR, na sigla em inglês), também conhecida como precisão média. Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
  • Log Perda: a entropia cruzada entre as predições do modelo e os valores do objetivo. Ela varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
  • Limite de confiança: uma pontuação de confiança que determina quais previsões serão retornadas. Um modelo retorna previsões que têm esse valor ou um valor maior. Um limite de confiança maior aumenta a precisão, mas diminui o recall. A Vertex AI retorna métricas de confiança em valores de limite diferentes para mostrar como o limite afeta a precisão e o recall.
  • Recall: a fração de predições com esta classe que o modelo previu corretamente. Também chamado de taxa de verdadeiro positivo.
  • Precisão: a fração de predições de classificação produzidas pelo modelo que estavam corretas.
  • Matriz de confusão: uma matriz de confusão mostra com que frequência um modelo previu corretamente um resultado. Para resultados previstos incorretamente, a matriz mostra o que o modelo previu. A matriz de confusão ajuda a entender onde o modelo "confunde" dois resultados.

Tabular

Classificação

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: a área sob a curva de precisão/recall (PR, na sigla em inglês), também conhecida como precisão média. Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
  • AuROC: a área sob a curva de característica de operação do receptor. Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
  • Log Perda: a entropia cruzada entre as predições do modelo e os valores do objetivo. Ela varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
  • Limite de confiança: uma pontuação de confiança que determina quais previsões serão retornadas. Um modelo retorna previsões que têm esse valor ou um valor maior. Um limite de confiança maior aumenta a precisão, mas diminui o recall. A Vertex AI retorna métricas de confiança em valores de limite diferentes para mostrar como o limite afeta a precisão e o recall.
  • Recall: a fração de predições com esta classe que o modelo previu corretamente. Também chamado de taxa de verdadeiro positivo.
  • Recall em 1: o recall (taxa de verdadeiro positivo) ao considerar apenas o rótulo que tem a maior pontuação de previsão e não abaixo do limite de confiança de cada exemplo.
  • Precisão: a fração de predições de classificação produzidas pelo modelo que estavam corretas.
  • Precisão em 1: a precisão ao considerar apenas o rótulo que tem a maior pontuação de previsão e não abaixo do limite de confiança de cada exemplo.
  • Pontuação F1: a média harmônica de precisão e recall. F1 é uma métrica útil quando você está procurando um equilíbrio entre precisão e recall e a distribuição de classes é desigual.
  • Pontuação F1 em 1: a média harmônica de recall em 1 e precisão em 1.
  • Matriz de confusão: uma matriz de confusão mostra com que frequência um modelo previu corretamente um resultado. Para resultados previstos incorretamente, a matriz mostra o que o modelo previu. A matriz de confusão ajuda a entender onde o modelo "confunde" dois resultados.
  • Contagem de verdadeiro negativo: o número de vezes que um modelo previu corretamente uma classe negativa.
  • Contagem de verdadeiro positivo: o número de vezes que um modelo previu corretamente uma classe positiva.
  • Contagem de falso negativo: o número de vezes que um modelo previu incorretamente uma classe negativa.
  • Contagem de falso positivo: o número de vezes que um modelo previu incorretamente uma classe positiva.
  • Taxa de falso positivo: a fração de resultados previstos incorretamente de todos os resultados previstos.
  • Taxa de falso positivo em 1: a taxa de falso positivo ao considerar apenas o rótulo que tem o maior índice de previsão e não abaixo do limite de confiança de cada exemplo.
  • Atribuições de recursos de modelo: a Vertex AI mostra o quanto cada recurso afeta um modelo. Os valores são fornecidos como uma porcentagem para cada atributo: quanto maior a porcentagem, mais impacto o recurso teve no treinamento do modelo. Analise essas informações para garantir que todos os atributos mais importantes estejam coerentes com os dados e o problema da empresa.

Regressão

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: erro médio absoluto (MAE, na sigla em inglês) é a diferença média absoluta entre valores desejados e valores previstos. Essa métrica varia de zero a infinito. Um valor menor indica um modelo de qualidade superior.
  • REMQ: a raiz do erro médio quadrado é a raiz quadrada da diferença média quadrática entre os valores de destino e previstos. A REMQ é mais sensível a outliers do que o MAE. Portanto, se você estiver preocupado com erros grandes, talvez seja mais útil avaliar a REMQ. Assim como no caso do MAE, um valor menor indica um modelo de maior qualidade (0 representa um preditor perfeito).
  • RMSLE: a métrica de raiz do erro médio quadrado e logarítmico é semelhante à RMSE. A diferença é que é usado o logaritmo natural de valores previstos e valores reais mais 1. A RMSLE penaliza com mais intensidade a subestimação do que a superestimação. Esta também pode ser uma boa métrica quando você não quer penalizar as diferenças de grandes valores de previsão com mais intensidade do que para pequenos valores de previsão. Essa métrica varia de zero a infinito. Um valor menor indica um modelo de qualidade superior. A métrica de avaliação RMSLE é retornada somente se todos os rótulos e valores previstos forem não negativos.
  • r^2: r ao quadrado (r^2) é o quadrado do coeficiente de correlação de Pearson entre os rótulos e os valores previstos. A métrica varia de zero a um. Um valor maior indica um ajuste mais próximo da linha de regressão.
  • MAPE: o erro absoluto médio percentual (MAPE, na sigla em inglês) é a diferença percentual absoluta média entre os rótulos e os valores previstos. Esta métrica varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
    O MAPE não é exibido se na coluna de destino houver algum valor zero. Nesse caso, o MAPE será indefinido.
  • Atribuições de recursos de modelo: a Vertex AI mostra o quanto cada recurso afeta um modelo. Os valores são fornecidos como uma porcentagem para cada atributo: quanto maior a porcentagem, mais impacto o recurso teve no treinamento do modelo. Analise essas informações para garantir que todos os atributos mais importantes estejam coerentes com os dados e o problema da empresa.

Previsão

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: erro médio absoluto (MAE, na sigla em inglês) é a diferença média absoluta entre valores desejados e valores previstos. Essa métrica varia de zero a infinito. Um valor menor indica um modelo de qualidade superior.
  • REMQ: a raiz do erro médio quadrado é a raiz quadrada da diferença média quadrática entre os valores de destino e previstos. A REMQ é mais sensível a outliers do que o MAE. Portanto, se você estiver preocupado com erros grandes, talvez seja mais útil avaliar a REMQ. Assim como no caso do MAE, um valor menor indica um modelo de maior qualidade (0 representa um preditor perfeito).
  • RMSLE: a métrica de raiz do erro médio quadrado e logarítmico é semelhante à RMSE. A diferença é que é usado o logaritmo natural de valores previstos e valores reais mais 1. A RMSLE penaliza com mais intensidade a subestimação do que a superestimação. Esta também pode ser uma boa métrica quando você não quer penalizar as diferenças de grandes valores de previsão com mais intensidade do que para pequenos valores de previsão. Essa métrica varia de zero a infinito. Um valor menor indica um modelo de qualidade superior. A métrica de avaliação RMSLE é retornada somente se todos os rótulos e valores previstos forem não negativos.
  • r^2: r ao quadrado (r^2) é o quadrado do coeficiente de correlação de Pearson entre os rótulos e os valores previstos. A métrica varia de zero a um. Um valor maior indica um ajuste mais próximo da linha de regressão.
  • MAPE: o erro absoluto médio percentual (MAPE, na sigla em inglês) é a diferença percentual absoluta média entre os rótulos e os valores previstos. Esta métrica varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
    O MAPE não é exibido se na coluna de destino houver algum valor zero. Nesse caso, o MAPE será indefinido.
  • WAPE: o erro percentual médio ponderado (WAPE, na sigla em inglês) é a diferença geral entre o valor previsto por um modelo e os valores observados sobre os valores observados. Em comparação com a REMQ, o WAPE é ponderado de acordo com as diferenças gerais, em vez de diferenças individuais, que podem ser altamente influenciadas por valores baixos ou intermitentes. Um valor menor indica um modelo de qualidade superior.
  • RMSPE: a raiz do erro percentual médio (RMPSE, na sigla em inglês) mostra a REMQ como uma porcentagem dos valores reais em vez de um número absoluto. Um valor menor indica um modelo de qualidade superior.
  • Quantile: o percentual de quantile, que indica a probabilidade de um valor observado estar abaixo do valor previsto. Por exemplo, no quantificador de 0,5, os valores observados devem ser menores do que os valores previstos 50% das vezes.
  • Quantil observado: mostra a porcentagem de valores verdadeiros menores que o valor previsto para um determinado quantil.
  • Perda de pinball em escala: a perda de pinball em um quantil específico. Um valor menor indica um modelo de qualidade superior no quantil fornecido.

Texto

Classificação

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: a área sob a curva de precisão/recall (PR, na sigla em inglês), também conhecida como precisão média. Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
  • Log Perda: a entropia cruzada entre as predições do modelo e os valores do objetivo. Ela varia de zero a infinito. Um valor menor indica um modelo de melhor qualidade.
  • Limite de confiança: uma pontuação de confiança que determina quais previsões serão retornadas. Um modelo retorna previsões que têm esse valor ou um valor maior. Um limite de confiança maior aumenta a precisão, mas diminui o recall. A Vertex AI retorna métricas de confiança em valores de limite diferentes para mostrar como o limite afeta a precisão e o recall.
  • Recall: a fração de predições com esta classe que o modelo previu corretamente. Também chamado de taxa de verdadeiro positivo.
  • Recall em 1: o recall (taxa de verdadeiro positivo) ao considerar apenas o rótulo que tem a maior pontuação de previsão e não abaixo do limite de confiança de cada exemplo.
  • Precisão: a fração de predições de classificação produzidas pelo modelo que estavam corretas.
  • Precisão em 1: a precisão ao considerar apenas o rótulo que tem a maior pontuação de previsão e não abaixo do limite de confiança de cada exemplo.
  • Matriz de confusão: uma matriz de confusão mostra com que frequência um modelo previu corretamente um resultado. Para resultados previstos incorretamente, a matriz mostra o que o modelo previu. A matriz de confusão ajuda a entender onde o modelo "confunde" dois resultados.
  • Pontuação F1: a média harmônica de precisão e recall. F1 é uma métrica útil quando você está procurando um equilíbrio entre precisão e recall e a distribuição de classes é desigual.
  • Pontuação F1 em 1: a média harmônica de recall em 1 e precisão em 1.

Video

Classificação

É possível visualizar e fazer o download de arquivos de esquema no seguinte local do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: a área sob a curva de precisão/recall (PR, na sigla em inglês), também conhecida como precisão média. Ela varia de zero a um. Um valor maior indica um modelo de melhor qualidade.
  • Limite de confiança: uma pontuação de confiança que determina quais previsões serão retornadas. Um modelo retorna previsões que têm esse valor ou um valor maior. Um limite de confiança maior aumenta a precisão, mas diminui o recall. A Vertex AI retorna métricas de confiança em valores de limite diferentes para mostrar como o limite afeta a precisão e o recall.
  • Recall: a fração de predições com esta classe que o modelo previu corretamente. Também chamado de taxa de verdadeiro positivo.
  • Precisão: a fração de predições de classificação produzidas pelo modelo que estavam corretas.
  • Matriz de confusão: uma matriz de confusão mostra com que frequência um modelo previu corretamente um resultado. Para resultados previstos incorretamente, a matriz mostra o que o modelo previu. A matriz de confusão ajuda a entender onde o modelo "confunde" dois resultados.
  • Pontuação F1: a média harmônica de precisão e recall. F1 é uma métrica útil quando você está procurando um equilíbrio entre precisão e recall e a distribuição de classes é desigual.

Tutoriais de notebook

AutoML: Tabular

AutoML: Text

AutoML: Video

Treinamento personalizado: tabular

Vertex AI Model Registry

A seguir