Evaluar un modelo

Esta página es válida para las versiones de motores dentro de los siguientes grupos principales de versiones de motores. Para ver la página de otras versiones del motor, usa el selector que se encuentra en la parte superior de esta página.

En resumen, estos son los cambios de las versiones del motor v003 a v004 (hasta la v004.008):

  • Se agregó la métrica ObservedRecallValuesPerTypology a la salida de la prueba retrospectiva.
  • Se agregaron partiesCount y identifiedPartiesCount al valor de la métrica ObservedRecallValues.

Descripción general

Los resultados de la simulación de pruebas te proporcionan un resumen del rendimiento del modelo en un período especificado. Se generan a partir de la predicción de todos los clientes dentro de un período de simulación y la evaluación del rendimiento del modelo en función de los eventos de riesgo disponibles.

Los resultados de la prueba retrospectiva se pueden usar para medir el rendimiento del modelo en un período diferente del que se usa en el entrenamiento o también a lo largo del tiempo para verificar si hay una degradación del rendimiento.

Cómo realizar una prueba retrospectiva

Para crear un recurso BacktestResult, consulta Crea y administra los resultados de la simulación de pruebas.

En particular, debes seleccionar lo siguiente:

  • Datos que se deben usar para la simulación de pruebas:

    Especifica un conjunto de datos y una hora de finalización dentro del período del conjunto de datos.

    El entrenamiento usa etiquetas y funciones basadas en meses calendario completos hasta el mes de la hora de finalización seleccionada, pero no lo incluye. Para obtener más información, consulta Intervalos de tiempo de los conjuntos de datos.

    Especifica cuántos meses de datos etiquetados usarás para la simulación retrospectiva (es decir, la cantidad de períodos de simulación retrospectiva).

  • Un modelo creado con un conjunto de datos coherente:

    Consulta Crea un modelo.

Períodos de la prueba

El campo backtestPeriods especifica cuántos meses calendario consecutivos se deben usar para las funciones y las etiquetas en la evaluación del rendimiento de este modelo.

Se aplica lo siguiente a los datos de la prueba retrospectiva:

  • Los meses que se usan en la evaluación son los meses calendario completos más recientes antes del endTime especificado. Por ejemplo, si endTime es 2023-04-15T23:21:00Z y backtestPeriods es 5, se usan las etiquetas de los siguientes meses: 2023-03, 2023-02, 2023-01, 2022-12 y 2022-11.
  • Debes usar los datos disponibles más recientes para la simulación de pruebas cuando evalúas un modelo para prepararlo para el uso en producción.
  • Los períodos de simulación deben establecerse en 3 o un valor superior. Se reservan dos meses del período de la prueba retrospectiva para tener en cuenta las alertas repetidas, y los meses restantes se usan para generar etiquetas positivas para la evaluación del rendimiento.

  • Evita usar meses superpuestos para el entrenamiento y la validación posterior, ya que esto puede generar un sobreajuste. Asegúrate de que las horas de finalización de la prueba retrospectiva y del entrenamiento sean de al menos backtestPeriods de diferencia. Es decir,

    (mes de finalización de los resultados de la simulación retrospectiva) >= (mes de finalización del modelo) + backtestPeriods

De manera opcional, también puedes crear resultados de predicción para un modelo y realizar tus propios análisis del rendimiento del modelo a nivel del partido.

Resultados de la prueba retrospectiva

Los metadatos de los resultados de la simulación de pruebas contienen las siguientes métricas. En particular, estas métricas te muestran lo siguiente:

  • El rendimiento del modelo en comparación con las etiquetas de un período diferente y para una variedad de volúmenes de investigación o umbrales de puntaje de riesgo

  • Mediciones que se pueden usar para evaluar la coherencia del conjunto de datos (por ejemplo, comparando los valores de faltantes de las familias de atributos de diferentes operaciones)

Nombre de la métrica Descripción de la métrica Ejemplo de valor de métrica
ObservedRecallValues Métrica de recuperación medida en el conjunto de datos especificado para la simulación de pruebas. La API incluye 20 de estas mediciones, en diferentes puntos de funcionamiento, distribuidas de forma uniforme desde 0 (no incluido) hasta 2 * partyInvestigationsPerPeriodHint. La API agrega una medición de recuperación final en partyInvestigationsPerPeriodHint.

Junto con el valor de recuperación, también proporcionamos el numerador y el denominador como partiesCount y identifiedPartiesCount, respectivamente.
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "partiesCount": 60,
      "identifiedPartiesCount": 48,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "recallValue": 0.85,
      "partiesCount": 60,
      "identifiedPartiesCount": 51,
      "scoreThreshold": 0.30,
    },
  ],
}
ObservedRecallValuesPerTypology Métrica de recuperación a nivel de la tipología de riesgo medida en el conjunto de datos especificado para la simulación de pruebas. Las mediciones siguen el mismo enfoque que ObservedRecallValues.
{
  "recallValuesPerTypology": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "riskTypology": "risk_typology_id_1",
      "recallValue": 0.80,
      "partiesCount": 60,
      "identifiedPartiesCount": 48,
      "scoreThreshold": 0.42,
    },
    {
      "partyInvestigationsPerPeriod": 8000,
      "riskTypology": "risk_typology_id_1",
      "recallValue": 0.90,
      "partiesCount": 60,
      "identifiedPartiesCount": 54,
      "scoreThreshold": 0.30,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "riskTypology": "risk_typology_id_2",
      "recallValue": 0.75,
      "partiesCount": 4
      "identifiedPartiesCount": 3,
      "scoreThreshold": 0.30,
    },
  ],
}
Faltan datos

Porcentaje de valores faltantes en todos los atributos de cada familia de atributos.

Idealmente, todas las familias de atributos de IA de AML deberían tener una falta cercana a 0. Pueden ocurrir excepciones cuando los datos subyacentes a esas familias de atributos no están disponibles para la integración.

Un cambio significativo en este valor para cualquier familia de atributos entre la optimización, el entrenamiento, la evaluación y la predicción puede indicar inconsistencias en los conjuntos de datos utilizados.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
Sesgo

Métricas que muestran sesgos entre los conjuntos de datos de entrenamiento y predicción o de pruebas retrospectivas. La distorsión familiar indica cambios en la distribución de los valores de atributos dentro de una familia de atributos, ponderados por la importancia del atributo dentro de esa familia. La asimetría máxima indica la asimetría máxima de cualquier componente dentro de esa familia.

Los valores de asimetría varían de 0, que representa que no hay cambios significativos en la distribución de los valores de los componentes de la familia, a 1 para el cambio más significativo. Un valor alto para el sesgo de familia o el sesgo máximo indica un cambio significativo en la estructura de tus datos de una manera que puede afectar el rendimiento del modelo. El sesgo de familia toma el valor -1 cuando el modelo no usa ninguna función de la familia.

Para valores de sesgo altos, debes hacer una de las siguientes acciones:

  • Investiga los cambios en los datos que usa esa familia de atributos (consulta los materiales de asistencia de la administración de modelos) y corrige los problemas de los datos de entrada.
  • Vuelve a entrenar un modelo con datos más recientes

Debes establecer umbrales para actuar en función de los valores de sesgo máximo y de la familia en función de la observación de la variación natural en las métricas de sesgo durante varios meses.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}