Cette page a été traduite par l'API Cloud Translation.
Switch to English

Signification des notes

L'API Cloud Inference renvoie un ensemble de distributions en réponse à des requêtes. Chaque entrée dans une distribution est un événement auquel une note est attribuée. La notation Inference est basée sur une probabilité conditionnelle: il s'agit de la probabilité qu'un événement se produise dans votre ensemble de données, si et seulement si la requête est effectuée. Les notes peuvent être résumées par l'expression suivante :

\[ \frac{P(event \mid query)}{P(event)^{exp}} \]

Exposant de la probabilité de base

Dans cette expression, "\ (exp \)" représente l'exposant de la probabilité de base (bgprobExp), un paramètre essentiel qui permet de contrôler la manière dont la probabilité de base est incorporée dans la note. La probabilité de base est simplement la probabilité que l'événement se produise pour un groupe aléatoire de l'ensemble de données (quelle que soit la requête).

Lorsque le paramètre d'arrière-plan est 0, la probabilité conditionnelle brute "\( P(event \mid query) \)" est renvoyée. Lorsque le paramètre de base est 1, un ratio pur "\( \frac{P(event \mid query)}{P(event)} \)"' est renvoyé. Ce ratio est appelé "lift". Lorsqu'on le compare au niveau de référence, le "lift" permet de déterminer s'il est plus ou moins probable que l'événement "concomitant" se produise.

La valeur par défaut de bgprobExp, 0,7, est un mélange entre ces deux extrêmes. Cela permet d'ajuster les notes afin de renvoyer des événements inhabituels dans le contexte de votre ensemble de données, tout en prenant en considération la popularité des événements dans le calcul de la note.

Exemple de GDelt

L'exemple gdelt_2018_04_data du guide de démarrage rapide vous aidera à illustrer comment bgprobExp peut révéler différents aspects d'un ensemble de données. Essayez d'exécuter une requête avec cette requête composée qui définit bgprobExp sur 0.0. Cette requête sélectionne des groupes d'articles dans lesquels les images taguées montrent des personnes souriantes, et dont le texte provient du Royaume-Uni.

{
  "name": "gdelt_2018_04_data",
  "queries": [{
    "query": {
      "type": "TYPE_AND",
      "children": [{
        "type": "TYPE_TERM",
        "term": {
          "name": "ImageFaceToneHas",
          "value": "Joy"
        }
      },{
        "type": "TYPE_TERM",
        "term": {
          "name": "PageTextGeo",
          "value": "United Kingdom"
        }
      }]
    },
    "distribution_configs": {
      "data_name": "ImageWebEntity",
      "bgprobExp": 0.0,
      "max_result_entries": 5
    }
  }]
}

Comme bgprobExp étant défini sur zéro, l'ensemble de résultats renvoyés est une probabilité conditionnelle pure, sans tenir compte de la popularité d'arrière-plan des termes renvoyés. Cela donne une vue précise, bien que générique, des articles correspondant à votre requête.

La première entrée dans les résultats renvoyés est un libellé assez générique, avec un très grand nombre de groupes :

            {
              "value": "ImageWebEntity=Socialite",
              "score": 0.13140087,
              "matchedGroupCount": "7899",
              "totalGroupCount": "123396"
            },

Cette distribution a un matchedGroupCount de 59079, ce qui donne un score d'environ 0,13.

Exécutez la requête à nouveau, mais définissez bgprobExp sur la valeur par défaut de 0.7. Les résultats tiennent désormais compte de la probabilité d'arrière-plan des événements renvoyés: \( \frac{P(event \mid query)}{P(event)^{0.7}} \). Les événements inhabituels auront des scores relativement élevés.

La première entrée est maintenant un événement plus rare et beaucoup plus pertinent pour la requête (visage souriant ET Royaume Uni). La note s'apparente désormais davantage à un ratio "lift" qu'à une probabilité conditionnelle pure.

            {
              "value": "ImageWebEntity=Catherine_Duchess_of_Cambridge",
              "score": 5.0441356,
              "matchedGroupCount": "1133",
              "totalGroupCount": "2478"
            },

Probabilité des termes rares

L'API Inference peut renvoyer des probabilités conditionnelles \( P(event \mid query) \) inférieures aux prévisions pour le nombre brut de groupes dans vos données. L'API Inference est conçue pour éviter de renvoyer des événements très rares, qui pourraient générer du bruit dans les résultats. Au lieu de renvoyer une estimation de probabilité directe, l'API renvoie la valeur limite inférieure d'un intervalle de confiance de 90 %. Pour les événements rares, cette valeur peut être nettement inférieure à une estimation basée uniquement sur le nombre de groupes.

Paramètres d'intervalle de temps

Par défaut, l'API Inference considérera \( P(event \mid query) \) en termes de "groupes entiers" : si un groupe correspond à la requête, tous les événements du groupe sont considérés comme concomitants avec la requête. La définition des paramètres d'intervalle max_before_timespan et max_after_timespan peut limiter les événements agrégés à un ensemble plus spécifique.

Au sein d'un groupe, chaque événement correspondant à la requête est considéré comme un "appel". Si les paramètres temporel sont spécifiés, l'agrégation n'aura lieu que dans les délais spécifiés dans les paramètres. Cela permet, par exemple, d'effectuer l'agrégation seulement après un événement, seulement avant un événement, ou seulement au cours d'une période délimitée (dans un sens ou dans l'autre).