Guia de pontuação

A API Cloud Inference retorna um conjunto de distribuições em resposta às consultas. Cada entrada em uma distribuição é um evento com pontuação. O núcleo da pontuação de inferência é a probabilidade condicional: a probabilidade de um evento que ocorre no conjunto de dados, considerando que a consulta também ocorre. Essas pontuações podem ser resumidas pela expressão:

\[ \frac{P(evento eventmid query)}{P(evento)^{exp}} \]

Expoente da probabilidade de fundo

O \( exp \) nessa expressão é o bgprobExp, um parâmetro-chave que permite controlar como a probabilidade de fundo é incorporada à pontuação. A probabilidade de fundo é simplesmente a probabilidade do evento que ocorre em um grupo aleatório no conjunto de dados (independentemente da consulta ocorrendo).

Quando o parâmetro de segundo plano é 0, a probabilidade bruta bruta \( P(evento eventconsulta intermediária) \) é retornada. Quando o parâmetro é 1, uma proporção pura é retornada, \( \frac{P(event \mid query)}{P(event)} \), chamado de aumento de pontuação. A pontuação de aumento descreve até que ponto o evento de coexistência ocorre quando comparado com o valor de referência.

O valor padrão de bgprobExp, 0, 7 é uma combinação entre essas duas extremidades. Isso combina as pontuações para retornar eventos incomuns no contexto do conjunto de dados, mas ainda atribui algum peso de pontuação à popularidade do evento.

Exemplo de GDelt

Usar o exemplo gdelt_2018_04_data do guia de início rápido ajudará a ilustrar como o bgprobExp pode revelar diferentes aspectos de um conjunto de dados. Tente fazer uma solicitação com essa consulta composta que defina bgprobExp como 0.0. Essa consulta seleciona grupos de artigos em que as imagens de notícias marcadas mostram rostos felizes e o texto tem origem no Reino Unido.

{
  "name": "gdelt_2018_04_data",
  "queries": [{
    "query": {
      "type": "TYPE_AND",
      "children": [{
        "type": "TYPE_TERM",
        "term": {
          "name": "ImageFaceToneHas",
          "value": "Joy"
        }
      },{
        "type": "TYPE_TERM",
        "term": {
          "name": "PageTextGeo",
          "value": "United Kingdom"
        }
      }]
    },
    "distribution_configs": {
      "data_name": "ImageWebEntity",
      "bgprobExp": 0.0,
      "max_result_entries": 5
    }
  }]
}

Como bgprobExp é definido como zero, o conjunto de resultados marcados será uma probabilidade condicional pura, sem considerar a popularidade em segundo plano dos termos retornados. Isso fornece uma visualização precisa e genérica dos artigos que correspondem à sua consulta.

A entrada superior nos resultados retornados é um rótulo bastante genérico, com uma contagem de grupos muito alta:

            {
              "value": "ImageWebEntity=Socialite",
              "score": 0.13140087,
              "matchedGroupCount": "7899",
              "totalGroupCount": "123396"
            },

Essa distribuição tem um matchedGroupCount de 59079, resultando em uma pontuação de evento de ~ 0,13.

Execute a consulta novamente, mas defina bgprobExp como o valor padrão de 0.7. Os resultados agora consideram a probabilidade de segundo plano dos eventos retornados: \( \frac{P(event \mid query)}{P(event)^{0.7}} \). Eventos incomuns terão pontuações relativamente mais altas.

A entrada principal agora é um evento mais raro, com maior relevância para a consulta (faceful && Reino Unido). A pontuação agora se assemelha mais a uma proporção de "aumento" do que uma probabilidade condicional pura.

            {
              "value": "ImageWebEntity=Catherine_Duchess_of_Cambridge",
              "score": 5.0441356,
              "matchedGroupCount": "1133",
              "totalGroupCount": "2478"
            },

Probabilidade de termos raros

A API Inference pode retornar probabilidades condicionais P( P(evento eventconsulta intermediária) \) que são mais baixas do que o esperado para as contagens de grupo brutos nos seus dados. A API Inference é projetada para evitar o retorno de eventos muito raros e possivelmente ruidosos. Em vez da estimativa de probabilidade direta, o limite inferior de um intervalo de confiança de 90% é retornado. Para eventos raros, isso pode ser significativamente menor do que a estimativa com base apenas na contagem de grupos.

Parâmetros de período

Por padrão, a API Inference considerará \( P(evento eventconsulta intermediária\ \) em termos de grupos inteiros: se um grupo corresponder à consulta, todo o conjunto de eventos no grupo será considerado co- ocorre com a consulta. Definir os parâmetros de período max_before_timespan e max_after_timespan pode restringir quais eventos são agregados a um conjunto mais específico.

Em um grupo, cada evento que corresponde à consulta é considerado um "hit". Se os parâmetros de tempo forem especificados, a agregação ocorrerá apenas dentro dos limites de tempo especificados nos parâmetros. Isso permite, por exemplo, a agregação apenas após um evento, somente antes ou apenas em um limite de tempo finito em qualquer direção.