Описание тега fscrawler
0
ответов
Индексируйте pdf файлы в сервисе AWS Elasticsearch с помощью средства поиска файловой системы Elasticsearch
Я могу индексировать pdf файлы в локальный Elasticsearch, используя Elasticsearch File System Crawler. По умолчанию параметр fscrawler имеет параметры порта, хоста и схемы, как показано ниже. { "name" : "job_name2", "fs" : { "url" : "/tmp/es", "upda…
21 май '18 в 14:26
0
ответов
Сенсорная команда в fscrawler
Я использую FScrawler для индексации своих документов. Я хочу знать, как использовать сенсорную команду всякий раз, когда я добавляю новые документы в папку. или он будет автоматически проиндексирован?
13 фев '19 в 04:49
1
ответ
Dockerized elasticsearch и fscrawler: не удалось создать клиента elasticsearch, искатель отключен… В соединении отказано
Я получил следующую ошибку при попытке подключить Dockerized fscrawler к Dockerized elasticsearch: [fpecfcElasticsearchClientManager] не удалось создать клиента elasticsearch, отключив сканер… [fpecfFsCrawler] При запуске сканера получена критическа…
11 авг '20 в 01:52
1
ответ
Как мне сопоставить индекс, созданный fscrawler, чтобы я мог выполнять точный полнотекстовый поиск в документе?
У меня есть индекс двоичных файлов, созданных fscrawler(имеет сопоставление по умолчанию). Я запрашиваю свой индекс с помощью php-elasticsearch: if ($q2 == '') { $params = [ 'index' => 'trial2', 'body' => [ 'query' => [ 'term' => [ 'cont…
05 ноя '19 в 15:48
1
ответ
Индексирование 7 ТБ данных с помощью elasticsearch. FScrawler останавливается через некоторое время
Я использую fscrawler для создания индекса данных выше 7 ТБ. Индексация начинается нормально, но затем останавливается, когда размер индекса достигает 2,6 ГБ. Я считаю, что это проблема с памятью, как мне настроить память? Моя машинная память состав…
09 дек '19 в 21:04
1
ответ
Импорт данных в формате .eml в elasticsearch
Теперь у меня есть письма в формате.eml, которые нужно проанализировать, а затем импортировать elasticsearch через fscrawler, но fscrawler не может сканировать информацию об отправителе и получателе, как я могу решить эту проблему
30 апр '20 в 05:13
1
ответ
FSCrawler не может найти существующие вакансии
Я новичок в Elastic Stack и хочу индексировать документы с помощью FSCrawler. Возникла странная проблема: Создаю новую вакансию и получаю подтверждение, что она успешно создана. Я вижу только что созданную папку с именем задания. Проблема в том, что…
11 фев '20 в 12:30
1
ответ
Ошибка FSCrawler при сканировании E:\TestFilesToBeIndexed\subfolder: java.net.ConnectException: время ожидания подключения истекло: подключение
Ошибка при сканировании пути \ к \file_folder: java.net.ConnectException: время ожидания подключения истекло: подключение Я пытаюсь загрузить файлы удаленного сервера с помощью FSCrawler в существующий индекс Elasticserach(который находится на моем …
22 май '20 в 09:47
1
ответ
Настройки JVM для elasticsearch и fscrawler
Я использую elasticsearch и fscrawler для поиска около 7 ТБ данных. Процесс начинается хорошо, пока через какое-то время не останавливается. Должно быть не хватает памяти, я пытаюсь добавить свою кучу, используя https://fscrawler.readthedocs.io/en/l…
11 дек '19 в 13:11
1
ответ
Правильный способ загрузки документа в FSCrawler для индексации в Elasticsearch
Я создаю прототип приложения Rails для загрузки документов в FSCrawler (с запущенным интерфейсом REST) для включения в индекс Elasticsearch. Используя их пример, это работает: response = `curl -F "file=@#{params[:document][:upload].tempfile.path}"…
30 янв '20 в 18:50
0
ответов
FScrawler: выборочное распознавание текста только для файлов PDF, не содержащих текста
Я использую FScrawler (2.7) для загрузки текста из PDF-файлов в Elasticsearch (7.6.X). Большинство файлов PDF содержат текст, но некоторые файлы PDF содержат изображения отсканированного текста, и их необходимо распознать. Есть ли способ настроить F…
05 июн '20 в 23:44
1
ответ
Есть ли способ проверить, какую PDF-стратегию будет использовать FSCrawler?
Я использую функцию REST FSCrawler для сканирования PDF-файлов по мере их загрузки. В настоящее время я используюocr_and_textpdf, однако ocr занимает слишком много времени, чтобы пользователь ждал ответа. Я хотел бы синхронно отправить PDF-файл в fs…
03 авг '20 в 04:00
1
ответ
Возможно ли содержимое файла Ingeset с помощью FSCrawler для perticular _id существующего индекса в Elasticsearch
Я уже вставил данные в существующий индекс Elasticsearch с _id в качестве одного из значений "mainid" имени столбца в базе данных. Теперь у меня есть другая таблица, в которой есть два столбца "mainid" и путь к файлам. Я хочу вставить эти файлы с по…
05 май '20 в 11:14
1
ответ
Как подключить FSCrawler REST к docker-compose
Я успешно проиндексировал PDF-файл с помощью FSCrawler, но я не могу подключиться к REST-клиенту для FSCrawler, чтобы создать конвейер для elasticsearch. Это моя команда в docker-compose: command: fscrawler fscrawler_rest Я могу запросить elasticsea…
20 июл '20 в 11:18
0
ответов
Как принимать файлы .doc / .docx в elasticsearch?
Я пытаюсь проиндексировать текстовые документы в своей среде elasticsearch. Я пробовал использовать плагин приема-прикрепления elasticsearch, но похоже, что можно принимать только данные в кодировке base64. Моя цель - индексировать целые каталоги с …
14 фев '20 в 11:40
0
ответов
Elasticsearch: выделить в определенных документах на основе критериев размера файла в индексе, созданном с помощью FsCrawler?
В настоящее время я использую следующий поисковый запрос, чтобы выделить материал на основе введенного запроса. Индекс создается через FsCrawler. GET index_name/_search { "query": { "query_string" :{ "query": "my_string_query_here" } }, "size": 10, …
07 мар '21 в 20:23
0
ответов
Запуск нескольких индексов как службы с помощью fscrawler
Я успешно создал задание индексации с помощью fscrawler и запустил его как службу в Windows, как показано в документации : set JAVA_HOME=c:\Program Files\Java\jdk15.0.1 set FS_JAVA_OPTS=-Xmx2g -Xms2g /Elastic/fscrawler/bin/fscrawler.bat --config_dir…
28 апр '21 в 13:33
0
ответов
веб-сайт обнаружил кукловода и не может получить данные
Я пытаюсь получить данные на этом веб-сайте заполнив форму и нажав кнопку с кукловодом. вот мой код: (async () => { puppeteer.use(stealthPlugin()) const args = [ '--fast-start', '--incognito', '--no-sandbox', '--disable-setuid-sandbox', '--disabl…
29 июл '21 в 08:33
1
ответ
Как использовать fscrwaler в Ubuntu?
Можно ли использовать fscrawler в ubuntu? Я использовал на окнах, и он отлично работает. Когда я пытаюсь следовать той же реализации в ubuntu, я получаю всевозможные ошибки. Сначала я просто попытался вытащить образ докера и запустить его в соответс…
19 сен '21 в 05:44
0
ответов
fscrawler - обновить существующую запись
Мне нужно искать документы по их содержимому и некоторым пользовательским данным. Итак, моя идея состоит в том, чтобы использовать fscrawler для извлечения контента из документов и хранения его вместе с пользовательскими данными клиентов в одном инд…
10 дек '21 в 17:23