Описание тега fscrawler

Описание тега Вопросы с тегом

0 ответов

Индексируйте pdf файлы в сервисе AWS Elasticsearch с помощью средства поиска файловой системы Elasticsearch

Я могу индексировать pdf файлы в локальный Elasticsearch, используя Elasticsearch File System Crawler. По умолчанию параметр fscrawler имеет параметры порта, хоста и схемы, как показано ниже. { "name" : "job_name2", "fs" : { "url" : "/tmp/es", "upda…

21 май '18 в 14:26

0 ответов

Сенсорная команда в fscrawler

Я использую FScrawler для индексации своих документов. Я хочу знать, как использовать сенсорную команду всякий раз, когда я добавляю новые документы в папку. или он будет автоматически проиндексирован?

elasticsearch touch fscrawler

13 фев '19 в 04:49

1 ответ

Dockerized elasticsearch и fscrawler: не удалось создать клиента elasticsearch, искатель отключен… В соединении отказано

Я получил следующую ошибку при попытке подключить Dockerized fscrawler к Dockerized elasticsearch: [fpecfcElasticsearchClientManager] не удалось создать клиента elasticsearch, отключив сканер… [fpecfFsCrawler] При запуске сканера получена критическа…

docker elasticsearch docker-compose fscrawler

11 авг '20 в 01:52

1 ответ

Как мне сопоставить индекс, созданный fscrawler, чтобы я мог выполнять точный полнотекстовый поиск в документе?

У меня есть индекс двоичных файлов, созданных fscrawler(имеет сопоставление по умолчанию). Я запрашиваю свой индекс с помощью php-elasticsearch: if ($q2 == '') { $params = [ 'index' => 'trial2', 'body' => [ 'query' => [ 'term' => [ 'cont…

php elasticsearch fscrawler

05 ноя '19 в 15:48

1 ответ

Индексирование 7 ТБ данных с помощью elasticsearch. FScrawler останавливается через некоторое время

Я использую fscrawler для создания индекса данных выше 7 ТБ. Индексация начинается нормально, но затем останавливается, когда размер индекса достигает 2,6 ГБ. Я считаю, что это проблема с памятью, как мне настроить память? Моя машинная память состав…

elasticsearch fscrawler

09 дек '19 в 21:04

1 ответ

Импорт данных в формате .eml в elasticsearch

Теперь у меня есть письма в формате.eml, которые нужно проанализировать, а затем импортировать elasticsearch через fscrawler, но fscrawler не может сканировать информацию об отправителе и получателе, как я могу решить эту проблему

elasticsearch fscrawler

30 апр '20 в 05:13

1 ответ

FSCrawler не может найти существующие вакансии

Я новичок в Elastic Stack и хочу индексировать документы с помощью FSCrawler. Возникла странная проблема: Создаю новую вакансию и получаю подтверждение, что она успешно создана. Я вижу только что созданную папку с именем задания. Проблема в том, что…

elasticsearch elasticsearch-plugin elasticsearch-7 fscrawler

11 фев '20 в 12:30

1 ответ

Ошибка FSCrawler при сканировании E:\TestFilesToBeIndexed\subfolder: java.net.ConnectException: время ожидания подключения истекло: подключение

Ошибка при сканировании пути \ к \file_folder: java.net.ConnectException: время ожидания подключения истекло: подключение Я пытаюсь загрузить файлы удаленного сервера с помощью FSCrawler в существующий индекс Elasticserach(который находится на моем …

elasticsearch fscrawler

22 май '20 в 09:47

1 ответ

Настройки JVM для elasticsearch и fscrawler

Я использую elasticsearch и fscrawler для поиска около 7 ТБ данных. Процесс начинается хорошо, пока через какое-то время не останавливается. Должно быть не хватает памяти, я пытаюсь добавить свою кучу, используя https://fscrawler.readthedocs.io/en/l…

java elasticsearch jvm fscrawler

11 дек '19 в 13:11

1 ответ

Правильный способ загрузки документа в FSCrawler для индексации в Elasticsearch

Я создаю прототип приложения Rails для загрузки документов в FSCrawler (с запущенным интерфейсом REST) для включения в индекс Elasticsearch. Используя их пример, это работает: response = `curl -F "file=@#{params[:document][:upload].tempfile.path}"…

ruby curl rest-client net-http fscrawler

30 янв '20 в 18:50

0 ответов

FScrawler: выборочное распознавание текста только для файлов PDF, не содержащих текста

Я использую FScrawler (2.7) для загрузки текста из PDF-файлов в Elasticsearch (7.6.X). Большинство файлов PDF содержат текст, но некоторые файлы PDF содержат изображения отсканированного текста, и их необходимо распознать. Есть ли способ настроить F…

elasticsearch pdf ocr fscrawler

05 июн '20 в 23:44

1 ответ

Есть ли способ проверить, какую PDF-стратегию будет использовать FSCrawler?

Я использую функцию REST FSCrawler для сканирования PDF-файлов по мере их загрузки. В настоящее время я используюocr_and_textpdf, однако ocr занимает слишком много времени, чтобы пользователь ждал ответа. Я хотел бы синхронно отправить PDF-файл в fs…

fscrawler

03 авг '20 в 04:00

1 ответ

Возможно ли содержимое файла Ingeset с помощью FSCrawler для perticular _id существующего индекса в Elasticsearch

Я уже вставил данные в существующий индекс Elasticsearch с _id в качестве одного из значений "mainid" имени столбца в базе данных. Теперь у меня есть другая таблица, в которой есть два столбца "mainid" и путь к файлам. Я хочу вставить эти файлы с по…

elasticsearch indexing fscrawler

05 май '20 в 11:14

1 ответ

Как подключить FSCrawler REST к docker-compose

Я успешно проиндексировал PDF-файл с помощью FSCrawler, но я не могу подключиться к REST-клиенту для FSCrawler, чтобы создать конвейер для elasticsearch. Это моя команда в docker-compose: command: fscrawler fscrawler_rest Я могу запросить elasticsea…

elasticsearch docker-compose fscrawler

20 июл '20 в 11:18

0 ответов

Как принимать файлы .doc / .docx в elasticsearch?

Я пытаюсь проиндексировать текстовые документы в своей среде elasticsearch. Я пробовал использовать плагин приема-прикрепления elasticsearch, но похоже, что можно принимать только данные в кодировке base64. Моя цель - индексировать целые каталоги с …

elasticsearch elasticsearch-plugin elasticsearch-7 data-ingestion fscrawler

14 фев '20 в 11:40

0 ответов

Elasticsearch: выделить в определенных документах на основе критериев размера файла в индексе, созданном с помощью FsCrawler?

В настоящее время я использую следующий поисковый запрос, чтобы выделить материал на основе введенного запроса. Индекс создается через FsCrawler. GET index_name/_search { "query": { "query_string" :{ "query": "my_string_query_here" } }, "size": 10, …

elasticsearch fscrawler

07 мар '21 в 20:23

0 ответов

Запуск нескольких индексов как службы с помощью fscrawler

Я успешно создал задание индексации с помощью fscrawler и запустил его как службу в Windows, как показано в документации : set JAVA_HOME=c:\Program Files\Java\jdk15.0.1 set FS_JAVA_OPTS=-Xmx2g -Xms2g /Elastic/fscrawler/bin/fscrawler.bat --config_dir…

elasticsearch batch-file fscrawler

28 апр '21 в 13:33

0 ответов

веб-сайт обнаружил кукловода и не может получить данные

Я пытаюсь получить данные на этом веб-сайте заполнив форму и нажав кнопку с кукловодом. вот мой код: (async () => { puppeteer.use(stealthPlugin()) const args = [ '--fast-start', '--incognito', '--no-sandbox', '--disable-setuid-sandbox', '--disabl…

node.js puppeteer fscrawler

29 июл '21 в 08:33

1 ответ

Как использовать fscrwaler в Ubuntu?

Можно ли использовать fscrawler в ubuntu? Я использовал на окнах, и он отлично работает. Когда я пытаюсь следовать той же реализации в ubuntu, я получаю всевозможные ошибки. Сначала я просто попытался вытащить образ докера и запустить его в соответс…

docker ubuntu elasticsearch fscrawler

19 сен '21 в 05:44

0 ответов

fscrawler - обновить существующую запись

Мне нужно искать документы по их содержимому и некоторым пользовательским данным. Итак, моя идея состоит в том, чтобы использовать fscrawler для извлечения контента из документов и хранения его вместе с пользовательскими данными клиентов в одном инд…

elasticsearch fscrawler

10 дек '21 в 17:23