Описание тега manifoldcf

Apache Manifold CF is an open source connector framework for website and enterprise search engines.
2 ответа

Поиск метаданных из изображений с использованием Datafari

Я ищу систему управления документами с открытым исходным кодом, чтобы проиндексировать все виды файлов (тексты: [pdf, doc...], изображения [jpg, png, bmp...], видео [mov, mp4...]) и я наткнулся на Datafari Он использует поисковую систему Solr и Mani…
29 мар '15 в 10:11
0 ответов

Сканирование SVN и слияние с использованием ManifoldCF

Я новичок в ManifoldCF и хочу подключиться к таким репозиториям, как SVN и Confluence. Может ли кто-нибудь предоставить мне подробные шаги по настройке в веб-интерфейсе ManifoldCF, как я уже установил его и запустил сервер ManifoldCF
15 сен '17 в 09:40
2 ответа

Как сканировать веб-сайт с аутентификацией SAML с использованием ManifoldCF или Nutch?

Я пытаюсь сканировать веб-сайт, а точнее Google Site с помощью ManifoldCF который имеет аутентификацию SAML и индексирует просканированные данные в Apache Solr. Но когда я сканирую URL, это дает мне 302 перенаправление на страницу входа, а затем гов…
08 авг '16 в 14:07
1 ответ

Извлечь содержимое файла с ManifoldCF

Я пытаюсь использовать ManifoldCF с коннектором файловой системы. Это работает как очарование: с реализованным экстрактором контента Tika я получил все ожидаемые метаданные из своих документов. Но... Как настроить ManifoldCF для получения эквивалент…
23 окт '15 в 13:58
1 ответ

Apache ManifoldCF: получить отчет истории для подключения к репозиторию через REST API

Я пытаюсь получить исторический отчет для подключения к репозиторию через API REST ManifoldCF. Согласно документации: https://manifoldcf.apache.org/release/release-2.11/en_US/programmatic-operation.html Это должно быть возможно с помощью следующего …
12 фев '19 в 16:23
0 ответов

Как сканировать содержимое сайтов с помощью ManifoldCF(2.9.1) SharePoint версии 2003. Я не могу сканировать данные содержимого сайта

В настоящее время я использую ManifoldCF(2.9.1) SharePoint версии 2003. Я не могу сканировать данные содержимого сайта. Я столкнулся с некоторыми проблемами, которые трудно решить. не могли бы вы помочь так же. Существует метод (CheckMatch) для пров…
12 фев '19 в 10:50
1 ответ

Добавить пользовательский параметр в Solr при использовании Spring Data Solr

Можно ли добавить дополнительный параметр в запрос Solr с помощью Spring Data Solr, который генерирует следующий запрос? "params": { "indent": "true", "q": "*.*", "_": "1430295713114", "wt": "java", "AuthenticatedUserName": "user@domain.com" } Я хоч…
29 апр '15 в 12:46
1 ответ

Лучший способ сканировать файловую систему и индексировать

Я работаю над проектом, в котором мне нужно просканировать более 10 ТБ данных и проиндексировать их. Мне нужно реализовать пошаговое сканирование, которое занимает меньше времени. Мой вопрос: какой инструмент лучше всего подходит для этого всем круп…
01 дек '17 в 09:40
1 ответ

Job ManifoldCF работает, но зависает через несколько секунд

Я установил ManifoldCFРазъёмы и постгрес. У меня есть 2 работы на моем ManifoldCF: задание LocalFile для внешнего SolR в производстве работа JCIFS для местного SolR На этом изображении вы можете увидеть проблему. Я могу начать работу, и они индексир…
21 апр '17 в 09:28
0 ответов

Manifoldcf - веб-коннектор - отображение URL

Мы устанавливаем Manifoldcf 2.10 и в конфигурации веб-коннектора мы обнаружили проблему, которую не знаем, как ее решить. Мы хотим удалить /index.html из конца URL-адресов. Пример: http://example.com/path/index.html => http://example.com/path/ В кон…
03 дек '18 в 17:07
0 ответов

Рендеринг фрагмента документа Word / PDF в поиске

Я заинтересован в создании программной системы, которая будет подключаться к различным источникам документов, извлекать контент из документов, содержащихся в каждом источнике, и делать извлеченный контент доступным для поисковых систем, таких как El…
1 ответ

Извлечение содержимого с использованием преобразования Tika - Manifold CF

Мы индексируем содержимое Documentum в Elasticsearch, используя Manifold Cf. мы не можем получить содержимое из вложения, но доступны метаданные. Есть ли способ получить содержимое с помощью преобразования Тика? Или, пожалуйста, предложите несколько…
1 ответ

Apache ManifoldCF TIKA

Я пытаюсь извлечь текстовое содержимое PDF-файла с помощью интеграции Apache Tika в Apache ManifoldCF, чтобы загрузить некоторые PDF-файлы на моем ноутбуке на сервере Elasticsearch. После правильного создания Tika Transformer и настройки его внутри …
16 ноя '17 в 11:08
2 ответа

Есть ли разъем для подключения AmazonS3 для ManifoldCF?

Я хотел бы просканировать амазонку s3 bucket, используя коллектор для передачи сканирования OpenSearchServer. Я видел, что другие продукты имеют разъем Amazon S3, и мне просто интересно, есть ли общедоступный разъем для ManifoldCF.
27 апр '15 в 18:57
1 ответ

Как получить данные "Статус документа" через REST API с помощью Apache ManifoldCF

Мы используем Apache ManifoldCF. В интерфейсе администратора есть отчет в Отчеты о состоянии -> Статус документа. Можно ли получить этот контент через Restful API ManifoldCF? Самая близкая вещь, которую я нашел, это org.apache.manifoldcf.crawler.Run…
20 апр '15 в 06:57
2 ответа

Является ли manifold cf хорошим вариантом для индексации на Google Диске?

Я использую проект с открытым исходным кодом apache manifoldcf для индексации документов из Google Drive в моем solr. Часто я видел, что это довольно противоречиво при индексации данных. Также требуется время, чтобы отразить даже небольшое количеств…
16 июн '15 в 15:56
1 ответ

Коллекторная точка упругости

Я пытаюсь создать задание для сканирования в ManifoldCF 2.7.1, я создаю упругий вывод, все в порядке, создаю репозиторий SharePoint, и все в порядке. Теперь, когда я создаю задание и добавляю эластичный вывод, я не вижу вкладку эластичного поиска, т…
25 май '17 в 15:40
2 ответа

Apache ManifoldCF. Невозможно создать соединение репозитория с FileNet

Я пытаюсь подключиться к FileNet из ManifoldCF без какого-либо успеха. Я получил ошибку Connection status: Connection temporarily failed: Connection refused to host: 127.0.0.1; nested exception is: java.net.ConnectException: Connection refused: conn…
07 сен '16 в 23:17
0 ответов

ManifoldCF и Postgresql сканируют 1,5 миллиона документов

Мы использовали ManifoldCF с Postgresql (9.6) для сканирования наших сайтов. Скорость сканирования хорошая (примерно 20 000 документов / час) до 500 000 документов. после снижения производительности, и мы можем увидеть длительное замораживание (очен…
08 фев '19 в 11:02
1 ответ

Написание выходного разъема Mongo DB для manifoldcf

Мы пытаемся передать содержимое репозитория в MongoDb через CF Apache. И мы не можем найти пример кода для нестандартного выходного разъема. Является ли это возможным? Может кто-нибудь, пожалуйста, помогите по этому вопросу? Спасибо!!
16 май '18 в 15:37