Описание тега solr-cell
Библиотека извлечения содержимого Solr: модуль contrib SOLR, отвечающий за преобразование необработанного содержимого расширенного документа во что-то, что может использовать Solr.
1
ответ
Интеграция Apache TIKA и Solr Cell с Solr для индексирования документов PDF и Word
Я делаю POC для индексации документов PDF и Word с помощью поисковой системы Solr. Я пытался найти подробную информацию или статьи на уровне, но не нашел \ подробных статей для этого. То, что я нашел, это использовать какой-то пример пакета solr. Эт…
28 апр '15 в 11:16
1
ответ
Существует ли передовая практика schema.xml для SOLR при импорте форматированных документов?
Я работаю с SOLR над проектом, в который мы импортируем кучу (~40 тыс. Элементов) богатых документов, в основном MS Word, Powerpoint, Excel и PDF. Есть ли лучшая практика schema.xml и / или solrconfig.xml использовать в SOLR при использовании Extrac…
05 дек '11 в 23:31
1
ответ
Индексирование PDF документов
Какой лучший способ индексировать документы PDF? Должен ли я индексировать их путем преобразования PDF-документов в TXT или есть лучший способ индексирования PDF-файлов?
17 сен '10 в 21:34
2
ответа
Как настроить Apache Tika с помощью Apache Solr 1.4.1
Я хочу проиндексировать большое количество PDF-документов. Я нашел ссылку, показывающую, что это можно сделать с помощью Apache Tika, но, к сожалению, я не могу найти ссылку, которая описывает, как я могу настроить Apache Tika в Solr 1.4.1. После то…
05 окт '10 в 13:09
1
ответ
solr extractingrequesthandler не является org.apache.solr.request.SolrRequestHandler
Я пытаюсь использовать post.jar для индексации папки с файлами PDF. Я добавил обработчик запросов, но получаю сообщение об ошибке при запуске. Похоже, что это может быть конфликт версий или загрузка дублированного класса, и поэтому он не распознаетс…
30 май '13 в 13:35
1
ответ
Solr: обработчик импорта данных и ячейка solr
Можно ли проиндексировать форматированный документ (pdf, office)... с помощью обработчика импорта данных, используя ячейку solr. Я использую Solr 3.2. Благодарю.
13 июл '11 в 08:38
1
ответ
Solr ExtractingRequestHandler Извлечение текста в формате PDF
У меня проблема с извлечением текста из PDF в Solr. Solr использует Apache Tika для извлечения текста из файла PDF, а Tika для этого использует PDFBox. Когда я отправляю свой файл PDF в Solr, он успешно извлекает текст, но текст полностью испорчен. …
07 ноя '11 в 20:28
1
ответ
Получение ExtractingRequestHandler для работы в Solr
Я пытаюсь заставить Solr работать с Tika, чтобы я мог индексировать документы Word и PDF на своем веб-сайте Drupal. Я посмотрел страницу Wiki и эту страницу, и они указывают на добавление requestHandler в solrconfig.xml. Я так и сделал, и теперь Сол…
27 окт '11 в 15:56
5
ответов
Можем ли мы искать.txt файлы в поисковой системе Solr?
Я использую поисковую систему Solr для целей моего проекта при поиске документов. Мой набор данных в формате.txt. Но solr предоставляет опции только для json,xml,pdf и некоторых других форматов файлов. Там нет опции для текстовых файлов.Нужны ли как…
04 апр '14 в 16:14
1
ответ
Нет результатов при поиске в индексированном PDF с помощью Solr Cell
Я работал с Solr некоторое время, недавно я попробовал компонент solr-cell, и я индексирую некоторые PDF-файлы, однако у меня точно такая же проблема, представленная в этой теме. Когда я ищу *:* в консоли администратора, отображаются PDF-файлы. Одна…
06 фев '12 в 23:03
1
ответ
Solr - Как добавить метаданные в индексированные двоичные файлы, которые были проиндексированы через Solr Cell?
Я создаю приложение PHP, которое позволяет пользователю искать файлы, используя Solr для поиска. Это происходит главным образом потому, что приложение требует поиска содержимого документов Word и PDF. Приложение также использует базу данных MySql дл…
24 окт '12 в 14:46
2
ответа
Использование Zend Lucene для поиска файлов Office 2003 или более старых
Я знаю, что уже есть объекты, поддерживающие файлы Office 2007, но есть ли какая-либо собственная поддержка Office 2003 или более ранней версии?
30 окт '09 в 05:50
1
ответ
Интеграция tika solr
Я пытаюсь индексировать с помощью запроса на основе curl запрос curl "http://localhost:8080/solr1/update/extract?literal.id=who.pdf&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@/root/apache-solr-3.1.0/docs/who.pdf" Пр…
31 май '11 в 11:28
3
ответа
Как мне индексировать документы в SOLR?
Я запускаю Solr 1.4 на Ubuntu 10.04 (установленной через apt-get solr-tomcat), и кажется, что он работает нормально. У меня возникли трудности с поиском какой-либо связной информации о том, как индексировать документы. Я новичок в SOLR, так что терп…
10 май '10 в 10:48
1
ответ
Solrj ContentStreamUpdateRequest не может сохранить все литеральные поля, если они не являются динамическими
Я использую Извлечение Обработчик запросов для индексирования HTML и PDF-файлов. Наряду с тем, что находит тика, я хочу добавить метаданные сверх содержания тики. Для этого я использую литерал.= Support. Если я не использую динамические поля "*_s", …
02 июн '14 в 14:59
1
ответ
Использование Solr CELL ExtractingRequestHandler для индексации / извлечения файлов из форматов пакетов
Можете ли вы использовать ExtractingRequestHandler и Tika с любым из форматов сжатых файлов (zip, tar, gz и т. Д.), Чтобы извлечь контент для индексации? Я посылаю solr файл archived.tar, используя curl. curl " http://localhost:8983/solr/update/extr…
25 окт '10 в 17:27
1
ответ
При импорте файлов с ячейкой solr / метаданными Tika возникает ошибка с несколькими значениями
Поэтому я пытаюсь проиндексировать документы, используя Solr CEL и Tika на Solr 5.4.1. Я использую конфигурацию по умолчанию, но когда я импортирую свои документы, я получаю эту ошибку: multiple values encountered for non multiValued field meta: Вот…
04 апр '17 в 21:04
2
ответа
Индексировать каждое слово текстового файла, которые разделены пробелом в solr?
Я реализую Solr 3.6 в моем приложении. Как у меня есть данные ниже в моем текстовом файле.. ** date = 2011-07-08 time = 10: 55: 06 timezone = "IST" имя_устройства ="CR1000i" device_id=C010600504-TYGJD3 deploy_mode = "Маршрут" log_id=031006209001 log…
26 июн '12 в 12:33
2
ответа
Отображение метаданных Tika Solr игнорирует заголовок документа
У меня есть следующий файл конфигурации для Solr: <requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" > <lst name="defaults"> <!-- All the main content goes into "text"... if you need…
21 дек '11 в 17:58
0
ответов
Получение метаданных даты с использованием SolrCell
Я использую Solr 3.6, чтобы индексировать много разных типов документов. У меня есть несколько полей, которые определяют общую информацию для всех документов, одним из которых является "дата" (в идеале - дата последнего изменения, просто что-то, что…
27 сен '12 в 20:46