Описание тега solr-cell

Описание тега Вопросы с тегом

Библиотека извлечения содержимого Solr: модуль contrib SOLR, отвечающий за преобразование необработанного содержимого расширенного документа во что-то, что может использовать Solr.

1 ответ

Интеграция Apache TIKA и Solr Cell с Solr для индексирования документов PDF и Word

Я делаю POC для индексации документов PDF и Word с помощью поисковой системы Solr. Я пытался найти подробную информацию или статьи на уровне, но не нашел \ подробных статей для этого. То, что я нашел, это использовать какой-то пример пакета solr. Эт…

28 апр '15 в 11:16

1 ответ

Существует ли передовая практика schema.xml для SOLR при импорте форматированных документов?

Я работаю с SOLR над проектом, в который мы импортируем кучу (~40 тыс. Элементов) богатых документов, в основном MS Word, Powerpoint, Excel и PDF. Есть ли лучшая практика schema.xml и / или solrconfig.xml использовать в SOLR при использовании Extrac…

solr lucene full-text-search apache-tika solr-cell

05 дек '11 в 23:31

1 ответ

Индексирование PDF документов

Какой лучший способ индексировать документы PDF? Должен ли я индексировать их путем преобразования PDF-документов в TXT или есть лучший способ индексирования PDF-файлов?

pdf solr apache-tika full-text-indexing solr-cell

17 сен '10 в 21:34

2 ответа

Как настроить Apache Tika с помощью Apache Solr 1.4.1

Я хочу проиндексировать большое количество PDF-документов. Я нашел ссылку, показывающую, что это можно сделать с помощью Apache Tika, но, к сожалению, я не могу найти ссылку, которая описывает, как я могу настроить Apache Tika в Solr 1.4.1. После то…

solr apache-tika solrnet solr-cell

05 окт '10 в 13:09

1 ответ

solr extractingrequesthandler не является org.apache.solr.request.SolrRequestHandler

Я пытаюсь использовать post.jar для индексации папки с файлами PDF. Я добавил обработчик запросов, но получаю сообщение об ошибке при запуске. Похоже, что это может быть конфликт версий или загрузка дублированного класса, и поэтому он не распознаетс…

solr extract solr-cell

30 май '13 в 13:35

1 ответ

Solr: обработчик импорта данных и ячейка solr

Можно ли проиндексировать форматированный документ (pdf, office)... с помощью обработчика импорта данных, используя ячейку solr. Я использую Solr 3.2. Благодарю.

solr apache-tika dataimporthandler solr-cell

13 июл '11 в 08:38

1 ответ

Solr ExtractingRequestHandler Извлечение текста в формате PDF

У меня проблема с извлечением текста из PDF в Solr. Solr использует Apache Tika для извлечения текста из файла PDF, а Tika для этого использует PDFBox. Когда я отправляю свой файл PDF в Solr, он успешно извлекает текст, но текст полностью испорчен. …

solr pdfbox apache-tika solr-cell

07 ноя '11 в 20:28

1 ответ

Получение ExtractingRequestHandler для работы в Solr

Я пытаюсь заставить Solr работать с Tika, чтобы я мог индексировать документы Word и PDF на своем веб-сайте Drupal. Я посмотрел страницу Wiki и эту страницу, и они указывают на добавление requestHandler в solrconfig.xml. Я так и сделал, и теперь Сол…

solr drupal apache-tika solr-cell

27 окт '11 в 15:56

5 ответов

Можем ли мы искать.txt файлы в поисковой системе Solr?

Я использую поисковую систему Solr для целей моего проекта при поиске документов. Мой набор данных в формате.txt. Но solr предоставляет опции только для json,xml,pdf и некоторых других форматов файлов. Там нет опции для текстовых файлов.Нужны ли как…

solr solr-cell

04 апр '14 в 16:14

1 ответ

Нет результатов при поиске в индексированном PDF с помощью Solr Cell

Я работал с Solr некоторое время, недавно я попробовал компонент solr-cell, и я индексирую некоторые PDF-файлы, однако у меня точно такая же проблема, представленная в этой теме. Когда я ищу *:* в консоли администратора, отображаются PDF-файлы. Одна…

pdf solr solr-cell

06 фев '12 в 23:03

1 ответ

Solr - Как добавить метаданные в индексированные двоичные файлы, которые были проиндексированы через Solr Cell?

Я создаю приложение PHP, которое позволяет пользователю искать файлы, используя Solr для поиска. Это происходит главным образом потому, что приложение требует поиска содержимого документов Word и PDF. Приложение также использует базу данных MySql дл…

solr solr-cell

24 окт '12 в 14:46

2 ответа

Использование Zend Lucene для поиска файлов Office 2003 или более старых

Я знаю, что уже есть объекты, поддерживающие файлы Office 2007, но есть ли какая-либо собственная поддержка Office 2003 или более ранней версии?

php solr zend-framework lucene solr-cell

30 окт '09 в 05:50

1 ответ

Интеграция tika solr

Я пытаюсь индексировать с помощью запроса на основе curl запрос curl "http://localhost:8080/solr1/update/extract?literal.id=who.pdf&uprefix=attr_&fmap.content=attr_content&commit=true" -F "myfile=@/root/apache-solr-3.1.0/docs/who.pdf" Пр…

solr full-text-search apache-tika solr-cell

31 май '11 в 11:28

3 ответа

Как мне индексировать документы в SOLR?

Я запускаю Solr 1.4 на Ubuntu 10.04 (установленной через apt-get solr-tomcat), и кажется, что он работает нормально. У меня возникли трудности с поиском какой-либо связной информации о том, как индексировать документы. Я новичок в SOLR, так что терп…

solr full-text-search apache-tika solr-cell

10 май '10 в 10:48

1 ответ

Solrj ContentStreamUpdateRequest не может сохранить все литеральные поля, если они не являются динамическими

Я использую Извлечение Обработчик запросов для индексирования HTML и PDF-файлов. Наряду с тем, что находит тика, я хочу добавить метаданные сверх содержания тики. Для этого я использую литерал.= Support. Если я не использую динамические поля "*_s", …

solr solrj solr-cell

02 июн '14 в 14:59

1 ответ

Использование Solr CELL ExtractingRequestHandler для индексации / извлечения файлов из форматов пакетов

Можете ли вы использовать ExtractingRequestHandler и Tika с любым из форматов сжатых файлов (zip, tar, gz и т. Д.), Чтобы извлечь контент для индексации? Я посылаю solr файл archived.tar, используя curl. curl " http://localhost:8983/solr/update/extr…

java solr full-text-search apache-tika solr-cell

25 окт '10 в 17:27

1 ответ

При импорте файлов с ячейкой solr / метаданными Tika возникает ошибка с несколькими значениями

Поэтому я пытаюсь проиндексировать документы, используя Solr CEL и Tika на Solr 5.4.1. Я использую конфигурацию по умолчанию, но когда я импортирую свои документы, я получаю эту ошибку: multiple values encountered for non multiValued field meta: Вот…

solr apache-tika solr-cell

04 апр '17 в 21:04

2 ответа

Индексировать каждое слово текстового файла, которые разделены пробелом в solr?

Я реализую Solr 3.6 в моем приложении. Как у меня есть данные ниже в моем текстовом файле.. ** date = 2011-07-08 time = 10: 55: 06 timezone = "IST" имя_устройства ="CR1000i" device_id=C010600504-TYGJD3 deploy_mode = "Маршрут" log_id=031006209001 log…

solr solr-cell

26 июн '12 в 12:33

2 ответа

Отображение метаданных Tika Solr игнорирует заголовок документа

У меня есть следующий файл конфигурации для Solr: <requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" > <lst name="defaults"> <!-- All the main content goes into "text"... if you need…

solr metadata apache-tika solr-cell

21 дек '11 в 17:58

0 ответов

Получение метаданных даты с использованием SolrCell

Я использую Solr 3.6, чтобы индексировать много разных типов документов. У меня есть несколько полей, которые определяют общую информацию для всех документов, одним из которых является "дата" (в идеале - дата последнего изменения, просто что-то, что…

solr metadata apache-tika solr-cell

27 сен '12 в 20:46