Avaliação de modelos no Vertex AI

O serviço de avaliação de IA de inferência permite-lhe avaliar o desempenho do modelo em exemplos de utilização específicos. Também pode referir-se à avaliação como observabilidade do desempenho de um modelo. A avaliação de modelos fornecida pela Vertex AI pode enquadrar-se no fluxo de trabalho de aprendizagem automática típico de várias formas:

  • Depois de preparar o modelo, reveja as métricas de avaliação do modelo antes de o implementar. Compare as métricas de avaliação em vários modelos para ajudar a decidir que modelo implementar.

  • Depois de implementar o modelo na produção, avalie-o periodicamente com os novos dados recebidos. Se as métricas de avaliação mostrarem que o desempenho do modelo está a degradar-se, considere voltar a preparar o modelo. Este processo é denominado avaliação contínua.

A forma como interpreta e usa essas métricas depende da necessidade da sua empresa e do problema para o qual o seu modelo é preparado. Por exemplo, pode ter uma tolerância mais baixa para falsos positivos do que para falsos negativos ou vice-versa. Estes tipos de perguntas afetam as métricas nas quais se focaria à medida que itera no seu modelo.

Seguem-se algumas das principais métricas fornecidas pelo serviço de avaliação de modelos de IA preditiva:

Funcionalidades

Para avaliar um modelo com o Vertex AI, precisa de um modelo preparado, um resultado de inferência em lote e um conjunto de dados de validação empírica. Segue-se um fluxo de trabalho de avaliação de modelos típico com a Vertex AI:

  1. Prepare um modelo. Pode fazê-lo no Vertex AI através do AutoML ou da preparação personalizada.

  2. Execute uma tarefa de inferência em lote no modelo para gerar resultados de inferência.

  3. Prepare os dados de verdade absoluta, que são os dados "corretamente etiquetados" conforme determinado pelos humanos. Normalmente, a verdade fundamental é o conjunto de dados de teste que usou durante o processo de preparação do modelo.

  4. Execute uma tarefa de avaliação no modelo, que avalia a precisão dos resultados da inferência em lote em comparação com os dados de verdade absoluta.

  5. Analise as métricas resultantes da tarefa de avaliação.

  6. Itere no seu modelo para ver se consegue melhorar a precisão do modelo. Pode executar várias tarefas de avaliação e comparar os resultados de várias tarefas em modelos ou versões de modelos.

Pode executar a avaliação de modelos no Vertex AI de várias formas:

  • Crie avaliações através do Registo de modelos do Vertex AI na Google Cloud consola.

  • Use as avaliações de modelos do Vertex AI como um componente do pipeline com o Vertex AI Pipelines. Pode criar execuções de pipelines e modelos que incluam avaliações de modelos como parte do seu fluxo de trabalho de MLOps automatizado.

    Pode executar o componente de avaliação do modelo por si só ou com outros componentes do pipeline, como o componente de inferência em lote.

A Vertex AI suporta a avaliação dos seguintes tipos de modelos:

Imagem

Classificação

Pode ver e transferir ficheiros de esquemas a partir da seguinte localização do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: a área sob a curva de precisão-revocação (PR), também denominada precisão média. Este valor varia entre zero e um, em que um valor mais elevado indica um modelo de qualidade superior.
  • Perda logarítmica: a entropia cruzada entre as inferências do modelo e os valores de destino. Este valor varia entre zero e infinito, sendo que um valor mais baixo indica um modelo de qualidade superior.
  • Limite de confiança: uma pontuação de confiança que determina as inferências a devolver. Um modelo devolve inferências que estão neste valor ou superior. Um limite de confiança mais elevado aumenta a precisão, mas diminui a revocação. A Vertex AI devolve métricas de confiança a diferentes valores de limite para mostrar como o limite afeta a precisão e a recolha.
  • Recall: a fração de inferências com esta classe que o modelo previu corretamente. Também denominada taxa de verdadeiros positivos.
  • Precisão: a fração de inferências de classificação produzidas pelo modelo que estavam corretas.
  • Matriz de confusão: uma matriz de confusão mostra a frequência com que um modelo previu corretamente um resultado. Para resultados previstos incorretamente, a matriz mostra o que o modelo previu em alternativa. A matriz de confusão ajuda a compreender onde o seu modelo está a "confundir" dois resultados.

Tabular

Classificação

Pode ver e transferir ficheiros de esquemas a partir da seguinte localização do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: a área sob a curva de precisão-revocação (PR), também denominada precisão média. Este valor varia entre zero e um, em que um valor mais elevado indica um modelo de qualidade superior.
  • AuROC: a área abaixo da curva de caraterísticas de funcionamento do recetor. Este valor varia entre zero e um, em que um valor mais elevado indica um modelo de maior qualidade.
  • Perda logarítmica: a entropia cruzada entre as inferências do modelo e os valores de destino. Este valor varia entre zero e infinito, sendo que um valor mais baixo indica um modelo de qualidade superior.
  • Limite de confiança: uma pontuação de confiança que determina as inferências a devolver. Um modelo devolve inferências que estão neste valor ou superior. Um limite de confiança mais elevado aumenta a precisão, mas diminui a revocação. A Vertex AI devolve métricas de confiança a diferentes valores de limite para mostrar como o limite afeta a precisão e a recolha.
  • Recall: a fração de inferências com esta classe que o modelo previu corretamente. Também denominada taxa de verdadeiros positivos.
  • Recuperação a 1: a recuperação (taxa de verdadeiros positivos) quando apenas se considera a etiqueta com a pontuação de inferência mais elevada e não abaixo do limite de confiança para cada exemplo.
  • Precisão: a fração de inferências de classificação produzidas pelo modelo que estavam corretas.
  • Precisão a 1: a precisão quando apenas se considera a etiqueta com a pontuação de inferência mais elevada e não abaixo do limite de confiança para cada exemplo.
  • Pontuação de F1: o meio harmónico de precisão e revocação. A F1 é uma métrica útil se estiver à procura de um equilíbrio entre a precisão e a revocação, e existir uma distribuição de classes desigual.
  • Pontuação de F1 a 1: a média harmónica da revocação a 1 e da precisão a 1.
  • Matriz de confusão: uma matriz de confusão mostra a frequência com que um modelo previu corretamente um resultado. Para resultados previstos incorretamente, a matriz mostra o que o modelo previu em alternativa. A matriz de confusão ajuda a compreender onde o seu modelo está a "confundir" dois resultados.
  • Contagem de verdadeiros negativos: o número de vezes que um modelo previu corretamente uma classe negativa.
  • Contagem de verdadeiros positivos: o número de vezes que um modelo previu corretamente uma classe positiva.
  • Contagem de falsos negativos: o número de vezes que um modelo previu incorretamente uma classe negativa.
  • Contagem de falsos positivos: o número de vezes que um modelo previu incorretamente uma classe positiva.
  • Taxa de falsos positivos: a fração de resultados previstos incorretamente em relação a todos os resultados previstos.
  • Taxa de falsos positivos a 1: a taxa de falsos positivos quando apenas se considera a etiqueta com a pontuação de inferência mais elevada e não abaixo do limite de confiança para cada exemplo.
  • Atribuições de funcionalidades do modelo: o Vertex AI mostra o impacto de cada funcionalidade num modelo. Os valores são fornecidos como uma percentagem para cada funcionalidade: quanto maior for a percentagem, maior foi o impacto da funcionalidade no treino do modelo. Reveja estas informações para garantir que todas as funcionalidades mais importantes fazem sentido para os seus dados e problema empresarial.

Regressão

Pode ver e transferir ficheiros de esquemas a partir da seguinte localização do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: o erro absoluto médio (MAE) é a diferença absoluta média entre os valores alvo e os valores previstos. Esta métrica varia de zero a infinito. Um valor mais baixo indica um modelo de qualidade superior.
  • RMSE: o erro quadrático médio é a raiz quadrada da diferença média elevada ao quadrado entre os valores alvo e previstos. O RMSE é mais sensível a valores atípicos do que o MAE, por isso, se tiver preocupações com erros grandes, o RMSE pode ser uma métrica mais útil para avaliar. Semelhante ao EAM, um valor mais pequeno indica um modelo de qualidade superior (0 representa um preditor perfeito).
  • RMSLE: a métrica de erro logarítmico da raiz quadrada média é semelhante à RMSE, exceto que usa o logaritmo natural dos valores previstos e reais mais 1. O RMSLE penaliza a subinferência mais do que a sobreinferência. Também pode ser uma boa métrica quando não quer penalizar as diferenças para valores de inferência grandes mais do que para valores de inferência pequenos. Esta métrica varia de zero ao infinito. Um valor mais baixo indica um modelo de qualidade superior. A métrica de avaliação RMSLE só é devolvida se todos os valores de etiqueta e previstos forem não negativos.
  • r^2: r ao quadrado (r^2) é o quadrado do coeficiente de correlação de Pearson entre as etiquetas e os valores previstos. Esta métrica varia entre zero e um. Um valor mais elevado indica um ajuste mais próximo à linha de regressão.
  • MAPE: o erro percentual absoluto médio (MAPE) é a diferença percentual absoluta média entre as etiquetas e os valores previstos. Esta métrica varia entre zero e infinito. Um valor mais baixo indica um modelo de qualidade superior.
    O MAPE não é apresentado se a coluna de destino contiver valores 0. Neste caso, MAPE não está definido.
  • Atribuições de funcionalidades do modelo: o Vertex AI mostra o impacto de cada funcionalidade num modelo. Os valores são fornecidos como uma percentagem para cada funcionalidade: quanto maior for a percentagem, maior foi o impacto da funcionalidade no treino do modelo. Reveja estas informações para garantir que todas as funcionalidades mais importantes fazem sentido para os seus dados e problema empresarial.

Previsão

Pode ver e transferir ficheiros de esquemas a partir da seguinte localização do Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: o erro absoluto médio (MAE) é a diferença absoluta média entre os valores alvo e os valores previstos. Esta métrica varia de zero a infinito. Um valor mais baixo indica um modelo de qualidade superior.
  • RMSE: o erro quadrático médio é a raiz quadrada da diferença média elevada ao quadrado entre os valores alvo e previstos. O RMSE é mais sensível a valores atípicos do que o MAE, por isso, se tiver preocupações com erros grandes, o RMSE pode ser uma métrica mais útil para avaliar. Semelhante ao EAM, um valor mais pequeno indica um modelo de qualidade superior (0 representa um preditor perfeito).
  • RMSLE: a métrica de erro logarítmico da raiz quadrada média é semelhante à RMSE, exceto que usa o logaritmo natural dos valores previstos e reais mais 1. O RMSLE penaliza a subinferência mais do que a sobreinferência. Também pode ser uma boa métrica quando não quer penalizar as diferenças para valores de inferência grandes mais do que para valores de inferência pequenos. Esta métrica varia de zero ao infinito. Um valor mais baixo indica um modelo de qualidade superior. A métrica de avaliação RMSLE só é devolvida se todos os valores de etiqueta e previstos forem não negativos.
  • r^2: r ao quadrado (r^2) é o quadrado do coeficiente de correlação de Pearson entre as etiquetas e os valores previstos. Esta métrica varia entre zero e um. Um valor mais elevado indica um ajuste mais próximo à linha de regressão.
  • MAPE: o erro percentual absoluto médio (MAPE) é a diferença percentual absoluta média entre as etiquetas e os valores previstos. Esta métrica varia entre zero e infinito. Um valor mais baixo indica um modelo de qualidade superior.
    O MAPE não é apresentado se a coluna de destino contiver valores 0. Neste caso, MAPE não está definido.
  • WAPE: o erro percentual absoluto ponderado (WAPE) é a diferença geral entre o valor previsto por um modelo e os valores observados em relação aos valores observados. Em comparação com o RMSE, o WAPE é ponderado em função das diferenças gerais e não das diferenças individuais, que podem ser muito influenciadas por valores baixos ou intermitentes. Um valor mais baixo indica um modelo de qualidade superior.
  • RMSPE: o erro percentual quadrático médio (RMSPE) mostra o RMSE como uma percentagem dos valores reais, em vez de um número absoluto. Um valor inferior indica um modelo de qualidade superior.
  • Quantil: o quantil percentual, que indica a probabilidade de um valor observado estar abaixo do valor previsto. Por exemplo, no quantil 0,5, espera-se que os valores observados sejam inferiores aos valores previstos 50% das vezes.
  • Quantil observado: mostra a percentagem de valores verdadeiros que foram inferiores ao valor previsto para um determinado quantil.
  • Perda de pinball escalonada: a perda de pinball escalonada num quantil específico. Um valor mais baixo indica um modelo de qualidade superior no quantil determinado.

Tutoriais do bloco de notas

AutoML: Tabular

Formação personalizada: tabular

Registo de modelos Vertex AI

O que se segue?