Elasticsearch: JSON, чтобы получить частоту определенного термина
Я думаю, что это простое приложение, но я не могу найти рецепт в Интернете.
Вы можете предложить JSON
запрос для отправки python
к экземпляру Elasticsearch, который вернет частоту определенного термина в определенном поле?
Я предполагаю, что это должно быть возможно с помощью некоторой настройки API Term Vector, но это кажется непростым.
Я бы не прочь получить как абсолютную частоту, так и количество документов, содержащих этот термин.
2 ответа
Если у вас есть идентификаторы, вы можете использовать Multivectors API https://www.elastic.co/guide/en/elasticsearch/reference/6.8/docs-multi-termvectors.html
curl -X POST "localhost:9200/index/type/_mtermvectors?pretty" -H 'Content-Type: application/json' -d'
{
"ids" : ["your_document_id1","your_document_id2"],
"parameters": {
"fields": [
"your_field"
],
"term_statistics": true
}
}
'
Вы даже можете передать искусственный документ с терминами, которые хотите проанализировать. Как указано здесь (https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html), убедитесь, что для term_statistics установлено значение true, чтобы вы могли получить эту информацию по своему индексу:
- общая частота термина (как часто термин встречается во всех документах)
- периодичность документов (количество документов, содержащих текущий термин)
На самом деле есть простое решение:
from elasticsearch import Elasticsearch as ES
from copy import deepcopy as copy
import sys
_field = sys.argv[1]
_terms = sys.argv[2:]
_timeout = 60
_gate = 'some.gate.org/'
_index = 'some_index'
_client = ES([_gate],scheme='http',port=80,timeout=_timeout) #or however to get connection
_body= {"doc": {_field: None}, "term_statistics" : True, "field_statistics" : True, "positions": False, "offsets": False}
for term in terms_:
body = copy(_body); body["doc"][_field] = term
result = _client.termvectors(index=_index,body=body)
print 'documents with', term, ':', result['term_vectors'][_field]['terms'][term]['doc_freq']
print 'frequency of ', term, ':', result['term_vectors'][_field]['terms'][term]['ttf']