Упругий поиск Термин Полевая статистика API вектора Значение

В документации по эластичному поиску в разделе Term Vectors API

Field statistics
Setting field_statistics to false (default is true) will omit :

document count (how many documents contain this field)
sum of document frequencies (the sum of document frequencies for all terms in this field)
sum of total term frequencies (the sum of total term frequencies of each term in this field)

Я не понимаю этой части.

Я экспериментировал, но как бы я ни проверял, я не понимаю, что представляют собой эти поля.

Насколько я понимаю, количество документов - это количество документов, содержащих это поле (например, fields=name), а сумма общих частот терминов - это общее количество терминов для всех терминов в этом поле, но я не могу точно получить поля.

Проверяя свой основной индекс, у меня есть определенное поле (title.keyword). Я предполагаю, что когда я устанавливаю /index_sample/_termvectors/1?fields=title.keyword, я должен получить общее количество документов (doc_count = 45000), в которых есть это поле, но оно возвращает мне гораздо меньшее количество, чем то, что я исключил (doc_count = 17000).

Может ли кто-нибудь объяснить мне это на простых примерах? По этому поводу почти нет сторонней документации, и это сводит меня с ума.

Спасибо!

1 ответ

AFAIK, Term Vectors API извлекает информацию о поставляемых векторах терминов документа. Чтобы получить информацию об уровне индекса (что очень дорого), посмотрите мой плагин здесь - https://github.com/nirmalc/es-termstat или плагин jprante: https://github.com/jprante/elasticsearch-index-termlist

Другие вопросы по тегам