Как я могу разобрать / индексировать PST файл в asticsearch?
Я могу разобрать файл JSON в elasticsaerch. Есть ли в любом случае для анализа / индексации Microsoft рассматривает PST-файлы в индексах Elasticsearch??
большое спасибо вам
1 ответ
Вы можете использовать плагин ElasticSearch "Ingest Attachment", который использует Tika для обработки нативных файлов (PDF, XLS, PST и т. Д.):
https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html
Плагин Ingest Attachment ранее назывался плагином Mapper-Attachments, поэтому вы можете найти помощь по ключевым словам со старого имени:
https://www.elastic.co/guide/en/elasticsearch/plugins/current/mapper-attachments.html
Эти плагины позволяют передавать PST в кодировке base64 непосредственно в ElasticSearch, а ES автоматически анализирует и индексирует данные за сценой.
Если вы хотите что-то нестандартное, я предлагаю использовать один из многих проектов github, которые читают PST-файлы, а затем отправляют данные в ElasticSearch в любом отображении документа, которое вы хотите. Существует много проектов для чтения с github PST, поэтому выберите один из них для любого языка, который вам наиболее удобен (java, C# и т. Д.). Github предложил условия поиска: libpst, pst reader
Вы также можете написать собственный анализатор для Apache Tika и использовать его вместо библиотеки для чтения PST. Документацию о том, как использовать, можно найти здесь:
https://tika.apache.org/1.6/parser.html
Пример Java для base64 кодирует файл в строку:
FileInputStream fileInputStreamReader = new FileInputStream(file);
byte[] bytes = new byte[(int)file.length()];
fileInputStreamReader.read(bytes);
String encodedfile = Base64.encodeBase64(bytes).toString();
Передайте полученную строку кодированного файла в вызов PUT, как показано в этой статье:
https://www.elastic.co/guide/en/elasticsearch/plugins/current/using-ingest-attachment.html