Эластичный поиск Python объем API (эластичный поиск Py)
Я не совсем понимаю, как работает решение py -asticsearch для массовых @Diolor https://stackru.com/questions/20288770/how-to-use-bulk-api-to-store-the-keywords-in-es-by-using -python, но я хотел бы использовать простой es.bulk()
Мой код:
from elasticsearch import Elasticsearch
es = Elasticsearch()
doc = '''\n {"host":"logsqa","path":"/logs","message":"test test","@timestamp":"2014-10-02T10:11:25.980256","tags":["multiline","mydate_0.005"]} \n'''
result = es.bulk(index="logstash-test", doc_type="test", body=doc)
ОШИБКА это:
No handlers could be found for logger "elasticsearch"
Traceback (most recent call last):
File "./log-parser-perf.py", line 55, in <module>
insertToES()
File "./log-parser-perf.py", line 46, in insertToES
res = es.bulk(index="logstash-test", doc_type="test", body=doc)
File "/usr/local/lib/python2.7/dist-packages/elasticsearch-1.0.0-py2.7.egg/elasticsearch/client/utils.py", line 70, in _wrapped
return func(*args, params=params, **kwargs)
File "/usr/local/lib/python2.7/dist-packages/elasticsearch-1.0.0-py2.7.egg/elasticsearch/client/__init__.py", line 570, in bulk
params=params, body=self._bulk_body(body))
File "/usr/local/lib/python2.7/dist-packages/elasticsearch-1.0.0-py2.7.egg/elasticsearch/transport.py", line 274, in perform_request
status, headers, data = connection.perform_request(method, url, params, body, ignore=ignore)
File "/usr/local/lib/python2.7/dist-packages/elasticsearch-1.0.0-py2.7.egg/elasticsearch/connection/http_urllib3.py", line 57, in perform_request
self._raise_error(response.status, raw_data)
File "/usr/local/lib/python2.7/dist-packages/elasticsearch-1.0.0-py2.7.egg/elasticsearch/connection/base.py", line 83, in _raise_error
raise HTTP_EXCEPTIONS.get(status_code, TransportError)(status_code, error_message, additional_info)
elasticsearch.exceptions.TransportError: TransportError(500, u'ActionRequestValidationException[Validation Failed: 1: no requests added;]')
Сгенерированный URL для вызова POST
/ Logstash-тест / тест /_bulk
и тело POST это:
{"host": "logsqa", "path": "/ logs", "message": "test test", "@ timestamp": "2014-10-02T10: 11: 25.980256", "tags": [" многострочный","mydate_0.005"]}
Вот я и сделал че скручивание вручную: этот скручивание не работает
> curl -XPUT http://localhost:9200/logstash-test/test2/_bulk -d
> '{"host":"logsqa","path":"/logs","message":"test
> test","@timestamp":"2014-10-02T10:11:25.980256","tags":["multiline","mydate_0.005"]}
> '
>
> {"error":"ActionRequestValidationException[Validation Failed: 1: no requests added;]","status":500}
Так что ошибка частично в порядке, но я ожидал, что asticsearch.bulk() будет правильно управлять аргументами ввода.
Функция pythonf:
bulk(*args, **kwargs)
:arg body: The operation definition and data (action-data pairs), as
either a newline separated string, or a sequence of dicts to
serialize (one per row).
:arg index: Default index for items which don't provide one
:arg doc_type: Default document type for items which don't provide one
:arg consistency: Explicit write consistency setting for the operation
:arg refresh: Refresh the index after performing the operation
:arg routing: Specific routing value
:arg replication: Explicitly set the replication type (default: sync)
:arg timeout: Explicit operation timeout
2 ответа
В случае, если кто-то сейчас пытается использовать пакет API и задается вопросом, каким должен быть формат, вот что сработало для меня:
doc = [
{
'index':{
'_index': index_name,
'_id' : <some_id>,
'_type':<doc_type>
}
},
{
'field_1': <value>,
'field_2': <value>
}
]
docs_as_string = json.dumps(doc[0]) + '\n' + json.dumps(doc[1]) + '\n'
client.bulk(body=docs_as_string)
От @HonzaKral на GitHub
https://github.com/elasticsearch/elasticsearch-py/issues/135
Привет сиркубакс,
массовый API (как и все остальные) очень близко следует формату массового API для самого упругого поиска, поэтому тело должно быть:
doc = '' '{"index": {}} \ n {"host": "logsqa", "path": "/ logs", "message": "test test", "@ timestamp": "2014- 10-02T10: 11: 25.980256 "," tags ": [" multiline "," mydate_0.005 "]} \ n '' 'для работы. В качестве альтернативы это может быть список этих двух диктов.
Это сложный и неуклюжий формат для работы с python, поэтому я попытался создать более удобный способ работы с объемами в asticsearch.helpers.bulk (0). Он просто принимает итератор документов, извлекает из него любые дополнительные метаданные (например, _id, _type и т. Д.) И создает (и выполняет) массовый запрос для вас. Для получения дополнительной информации о принятых форматах см. Документацию для streaming_bulk выше, которая является вспомогательным средством для обработки потока итеративным способом (по одному за раз от точки пользователя, объединенной в порции в фоновом режиме).
Надеюсь это поможет.
0 - http://elasticsearch-py.readthedocs.org/en/master/helpers.html