A API Cloud Inference retorna um conjunto de distribuições em resposta às consultas. Cada entrada em uma distribuição é um evento com pontuação. O núcleo da pontuação de inferência é a probabilidade condicional: a probabilidade de um evento que ocorre no conjunto de dados, considerando que a consulta também ocorre. Essas pontuações podem ser resumidas pela expressão:
\[ \frac{P(evento eventmid query)}{P(evento)^{exp}} \]
Expoente da probabilidade de fundo
O \( exp \) nessa expressão é o bgprobExp, um parâmetro-chave que permite controlar como a probabilidade de fundo é incorporada à pontuação. A probabilidade de fundo é simplesmente a probabilidade do evento que ocorre em um grupo aleatório no conjunto de dados (independentemente da consulta ocorrendo).
Quando o parâmetro de segundo plano é 0, a probabilidade bruta bruta \( P(evento eventconsulta intermediária) \) é retornada. Quando o parâmetro é 1, uma proporção pura é retornada, \( \frac{P(event \mid query)}{P(event)} \), chamado de aumento de pontuação. A pontuação de aumento descreve até que ponto o evento de coexistência ocorre quando comparado com o valor de referência.
O valor padrão de bgprobExp
, 0, 7 é uma combinação entre essas duas extremidades. Isso combina as pontuações para retornar eventos incomuns no contexto do conjunto de dados, mas ainda atribui algum peso de pontuação à popularidade do evento.
Exemplo de GDelt
Usar o exemplo gdelt_2018_04_data
do guia de início rápido ajudará a ilustrar como o bgprobExp
pode revelar diferentes aspectos de um conjunto de dados. Tente fazer uma solicitação com essa consulta composta que defina bgprobExp
como 0.0
.
Essa consulta seleciona grupos de artigos em que as imagens de notícias marcadas mostram rostos felizes e o texto tem origem no Reino Unido.
{ "name": "gdelt_2018_04_data", "queries": [{ "query": { "type": "TYPE_AND", "children": [{ "type": "TYPE_TERM", "term": { "name": "ImageFaceToneHas", "value": "Joy" } },{ "type": "TYPE_TERM", "term": { "name": "PageTextGeo", "value": "United Kingdom" } }] }, "distribution_configs": { "data_name": "ImageWebEntity", "bgprobExp": 0.0, "max_result_entries": 5 } }] }
Como bgprobExp
é definido como zero, o conjunto de resultados marcados será uma probabilidade condicional pura, sem considerar a popularidade em segundo plano dos termos retornados. Isso fornece uma visualização precisa e genérica dos artigos que correspondem à sua consulta.
A entrada superior nos resultados retornados é um rótulo bastante genérico, com uma contagem de grupos muito alta:
{ "value": "ImageWebEntity=Socialite", "score": 0.13140087, "matchedGroupCount": "7899", "totalGroupCount": "123396" },
Essa distribuição tem um matchedGroupCount
de 59079, resultando em uma pontuação de evento de ~ 0,13.
Execute a consulta novamente, mas defina bgprobExp
como o valor padrão de 0.7
. Os resultados agora consideram a probabilidade de segundo plano dos eventos retornados: \( \frac{P(event \mid query)}{P(event)^{0.7}}
\). Eventos incomuns terão pontuações relativamente mais altas.
A entrada principal agora é um evento mais raro, com maior relevância para a consulta (faceful && Reino Unido). A pontuação agora se assemelha mais a uma proporção de "aumento" do que uma probabilidade condicional pura.
{ "value": "ImageWebEntity=Catherine_Duchess_of_Cambridge", "score": 5.0441356, "matchedGroupCount": "1133", "totalGroupCount": "2478" },
Probabilidade de termos raros
A API Inference pode retornar probabilidades condicionais P( P(evento eventconsulta intermediária) \) que são mais baixas do que o esperado para as contagens de grupo brutos nos seus dados. A API Inference é projetada para evitar o retorno de eventos muito raros e possivelmente ruidosos. Em vez da estimativa de probabilidade direta, o limite inferior de um intervalo de confiança de 90% é retornado. Para eventos raros, isso pode ser significativamente menor do que a estimativa com base apenas na contagem de grupos.
Parâmetros de período
Por padrão, a API Inference considerará \( P(evento eventconsulta intermediária\ \) em termos de grupos inteiros: se um grupo corresponder à consulta, todo o conjunto de eventos no grupo será considerado co- ocorre com a consulta. Definir os parâmetros de período max_before_timespan e max_after_timespan pode restringir quais eventos são agregados a um conjunto mais específico.
Em um grupo, cada evento que corresponde à consulta é considerado um "hit". Se os parâmetros de tempo forem especificados, a agregação ocorrerá apenas dentro dos limites de tempo especificados nos parâmetros. Isso permite, por exemplo, a agregação apenas após um evento, somente antes ou apenas em um limite de tempo finito em qualquer direção.