Описание тега apache-tika
Набор инструментов Apache Tika™ обнаруживает и извлекает метаданные и структурированный текстовый контент из различных документов, используя существующие библиотеки парсеров.
2
ответа
Тика AutoDetectParser возвращает пустую строку?
Я пытаюсь использовать AutoDetectParser от Tika для извлечения содержимого файла. Первоначально я думал, что это проблема зависимости, но не могу понять, как это все еще может быть правдой сейчас, когда я включаю все tika-app в мою банку. AutoDetect…
21 дек '15 в 20:04
0
ответов
Тика не может правильно читать текст из файла PDF
Я новичок в Apache Тика. У меня есть два файла PDF с другим шрифтом, но tika не может правильно читать, у одного шрифт Shruti, который правильно читается с помощью tika, но у другого файла шрифт lmg-rupen, который не читается правильно с tika, есть …
30 июл '16 в 16:56
2
ответа
Как проверить, что содержимое файла действительно изображение
Для определения реального типа файла на основе содержимого файла (а не расширения) я использую apache Tika. Я написал следующий код: InputStream theInputStream = new FileInputStream("D:\\video.mp4"); try (InputStream is = theInputStream; BufferedInp…
11 июл '15 в 20:17
1
ответ
Проблемы с анализом таблицы внутри файла RTF с использованием Apache Tika
Я пытаюсь разобрать файл RTF с помощью Apache Tika. Внутри файла есть таблица с несколькими столбцами. Проблема в том, что анализатор записывает результат без какой-либо информации, в каком столбце было значение. Что я делаю сейчас: AutoDetectParser…
16 апр '12 в 08:06
2
ответа
Плагин прикрепления Elasticsearch против собственной реализации Tika
Я хочу использовать инструментарий Tika для индексирования содержимого файлов документов (pdf, docx...) и изображений (через плагин tesseract). Я попробовал подключаемый модуль эластичного вложения ( https://www.elastic.co/guide/en/elasticsearch/plu…
06 ноя '16 в 17:53
0
ответов
Извлечение содержимого документа с использованием Apache Tika и Cloudera Hadoop
Я пытаюсь извлечь контент из документа с помощью Apache Tika jar 1.6 и запускаю задание MapReduce с использованием CDH4.6. Я использовал код формы по ссылке ниже https://groups.google.com/forum/ Но когда я запускаю код, появляется следующая ошибка 1…
12 ноя '14 в 08:55
0
ответов
Ошибка отправки PDF с использованием SolrJ и Solr 5.1.0
Я использую Solr для извлечения информации из базы данных и файловой системы одновременно. База данных содержит путь к файлу файла в файловой системе. Это тянет всех тех просто отлично. На самом деле, он отлично сочетает метаданные из базы данных и …
18 июн '15 в 15:16
1
ответ
Пользовательское выражение xpath с тика
Я пытаюсь создать пользовательский xpath contentHandler для tika, который распознает сложное выражение xpath, используя код из org/apache/tika/sax/BodyContentHandler.java (потому что я использую tika для других вещей) Этот xpath работает /xhtml:html…
23 авг '11 в 20:15
1
ответ
Извлеките только имена файлов из архива, используя Apache Tika
Я хочу, чтобы Тика выводила только имена файлов в архиве (если входной файл является архивом) и содержимое файла как обычно, если входной файл не является архивом. Как я могу это сделать?
27 сен '12 в 11:08
0
ответов
Извлечение изображений из HTML из <div> с помощью Tika
У меня есть следующий файл xhtml, который содержит около 30-40 изображений. Файл генерируется автоматически, и номера изображения изменяются, но содержание {html text}, которое действительно должно быть, не меняется. Я надеялся, что кто-то может ука…
15 сен '12 в 17:08
0
ответов
Ошибки solrnet после новой установки (tomcat 8 / solr 4.10.0 windows server 2012 machine)
Я сталкиваюсь с проблемой Solrnet, которая кажется случайной: когда я пытаюсь использовать метод solr.extract для извлечения содержимого из файлов PDF/word... (или solr.commit... ect), я получаю следующая ошибка: 23-окт-2014 23:03:03.729 SEVERE [htt…
24 окт '14 в 07:20
2
ответа
Как включить / отключить индексацию на веб-странице
Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хочу включить и выключить индексацию контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответственно? Например, при использовании Google Searc…
17 май '13 в 09:55
1
ответ
Grails Tika Plugin - Как мне отправить файл из базы данных в tika для разбора
Я использовал этот пример, чтобы загрузить и загрузить файл в базу данных. Как я могу отправить этот файл TikaService У меня есть данные и разобрать? Учебник сохраняет filename а также filedata по отдельности. filedata это двоичные данные. Я могу ра…
19 фев '16 в 21:02
1
ответ
Как получить текстовые файлы содержимого с тика 1.6?
Привет я пытаюсь получить текстовое содержимое из любых файлов в этом списке pdf,txt,doc,docx и odt. Реализация с тика ранее работала нормально, но теперь не работает, код такой: `` ` public void uploadFile(FileUploadEvent event) throws Exception { …
15 янв '15 в 17:10
2
ответа
SolrInputDocument/tika Извлечение медленно для индексации многих документов
Я использую Solr 4.5. Я пытаюсь перебрать несколько файлов HTML, чтобы извлечь данные из файла, используя Apache Tika 1.4. Затем добавьте эти поля метаданных в SolrInputDocument. Каждый раз мне приходится зацикливать файл и создавать экземпляр SolrI…
25 фев '14 в 23:38
1
ответ
Интеграция Apache TIKA и Solr Cell с Solr для индексирования документов PDF и Word
Я делаю POC для индексации документов PDF и Word с помощью поисковой системы Solr. Я пытался найти подробную информацию или статьи на уровне, но не нашел \ подробных статей для этого. То, что я нашел, это использовать какой-то пример пакета solr. Эт…
28 апр '15 в 11:16
2
ответа
Получить имя файла из байтового массива
Мы можем извлечь mimetype из байтового массива, например, используя Apache Tika. Можно ли получить имя файла из массива байтов.
27 мар '12 в 07:14
2
ответа
Получение абсолютного URL с веб-страницы
Я хочу извлечь полную ссылку из файла HTML. Полная ссылка Я имею в виду абсолютные ссылки. Я использовал Тика для этой цели. Вот мой код: URL url = new URL("http://www.domainname.com/"); InputStream input = url.openStream(); LinkContentHandler linkH…
05 окт '13 в 10:28
1
ответ
Solr SimplePostTool: IOException при чтении ответа: java.net.SocketException: неожиданный конец файла с сервера
Я пытаюсь проиндексировать большой файловый репозиторий (более 10000 документов каждого формата под солнцем) с помощью Simpleposttool (bin/post) в Solr 6.1.0. Он будет работать довольно долго без проблем, после чего произойдет сбой: POSTing file Thi…
14 июл '16 в 19:40
0
ответов
Потеря входного потока в Apache Tika
Я получаю поток ввода из HttpRequest и использую тот же поток ввода для извлечения метаданных. как показано ниже. ServletFileUpload upload = new ServletFileUpload(); FileItemIterator iter = upload.getItemIterator(request); --- more lines for the ite…
29 апр '14 в 14:29