Фразовый запрос в asticsearch учитывает docFreq для каждого составляющего слова?

Я ищу фразу в совокупности документов (использующих эластичный поиск 5.5.1), которая включает в себя годовые отчеты компании. Я ищу фразу, контекст запроса выглядит следующим образом:

"query": {
    "bool": {
      "should": [{ "match_phrase": { "content": {"query": "computer vision"}}}

Рассматривая объяснение возвращаемых результатов, похоже, что термин "частота" рассчитывается правильным (или тем, что я ожидаю) способом, т. Е. Он возвращает количество раз, когда фраза встречается в документе. Однако вычисление idf суммирует результаты для каждого из составляющих слов фразы. Например, во фразе "компьютерное зрение" он вычисляет docFreq для "компьютера" и docFeq для "зрения" отдельно и суммирует журнал (1 + (docCount - docFreq + 0,5) / (docFreq + 0,5)) для каждого слово. Это не совсем то, что я ожидал - я бы подумал, что docFreq, как частота термин будет основываться на количестве вхождений точной фразы. Любая помощь приветствуется.

0 ответов

Другие вопросы по тегам