Как я могу разобрать / индексировать PST файл в asticsearch?

Я могу разобрать файл JSON в elasticsaerch. Есть ли в любом случае для анализа / индексации Microsoft рассматривает PST-файлы в индексах Elasticsearch??

большое спасибо вам

1 ответ

Решение

Вы можете использовать плагин ElasticSearch "Ingest Attachment", который использует Tika для обработки нативных файлов (PDF, XLS, PST и т. Д.):

https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html

Плагин Ingest Attachment ранее назывался плагином Mapper-Attachments, поэтому вы можете найти помощь по ключевым словам со старого имени:

https://www.elastic.co/guide/en/elasticsearch/plugins/current/mapper-attachments.html

Эти плагины позволяют передавать PST в кодировке base64 непосредственно в ElasticSearch, а ES автоматически анализирует и индексирует данные за сценой.

Если вы хотите что-то нестандартное, я предлагаю использовать один из многих проектов github, которые читают PST-файлы, а затем отправляют данные в ElasticSearch в любом отображении документа, которое вы хотите. Существует много проектов для чтения с github PST, поэтому выберите один из них для любого языка, который вам наиболее удобен (java, C# и т. Д.). Github предложил условия поиска: libpst, pst reader

Вы также можете написать собственный анализатор для Apache Tika и использовать его вместо библиотеки для чтения PST. Документацию о том, как использовать, можно найти здесь:

https://tika.apache.org/1.6/parser.html

Пример Java для base64 кодирует файл в строку:

FileInputStream fileInputStreamReader = new FileInputStream(file);
byte[] bytes = new byte[(int)file.length()];
fileInputStreamReader.read(bytes);
String encodedfile = Base64.encodeBase64(bytes).toString();

Передайте полученную строку кодированного файла в вызов PUT, как показано в этой статье:

https://www.elastic.co/guide/en/elasticsearch/plugins/current/using-ingest-attachment.html

Другие вопросы по тегам