Описание тега apache-tika

Набор инструментов Apache Tika™ обнаруживает и извлекает метаданные и структурированный текстовый контент из различных документов, используя существующие библиотеки парсеров.
2 ответа

Тика AutoDetectParser возвращает пустую строку?

Я пытаюсь использовать AutoDetectParser от Tika для извлечения содержимого файла. Первоначально я думал, что это проблема зависимости, но не могу понять, как это все еще может быть правдой сейчас, когда я включаю все tika-app в мою банку. AutoDetect…
21 дек '15 в 20:04
0 ответов

Тика не может правильно читать текст из файла PDF

Я новичок в Apache Тика. У меня есть два файла PDF с другим шрифтом, но tika не может правильно читать, у одного шрифт Shruti, который правильно читается с помощью tika, но у другого файла шрифт lmg-rupen, который не читается правильно с tika, есть …
30 июл '16 в 16:56
2 ответа

Как проверить, что содержимое файла действительно изображение

Для определения реального типа файла на основе содержимого файла (а не расширения) я использую apache Tika. Я написал следующий код: InputStream theInputStream = new FileInputStream("D:\\video.mp4"); try (InputStream is = theInputStream; BufferedInp…
11 июл '15 в 20:17
1 ответ

Проблемы с анализом таблицы внутри файла RTF с использованием Apache Tika

Я пытаюсь разобрать файл RTF с помощью Apache Tika. Внутри файла есть таблица с несколькими столбцами. Проблема в том, что анализатор записывает результат без какой-либо информации, в каком столбце было значение. Что я делаю сейчас: AutoDetectParser…
16 апр '12 в 08:06
2 ответа

Плагин прикрепления Elasticsearch против собственной реализации Tika

Я хочу использовать инструментарий Tika для индексирования содержимого файлов документов (pdf, docx...) и изображений (через плагин tesseract). Я попробовал подключаемый модуль эластичного вложения ( https://www.elastic.co/guide/en/elasticsearch/plu…
06 ноя '16 в 17:53
0 ответов

Извлечение содержимого документа с использованием Apache Tika и Cloudera Hadoop

Я пытаюсь извлечь контент из документа с помощью Apache Tika jar 1.6 и запускаю задание MapReduce с использованием CDH4.6. Я использовал код формы по ссылке ниже https://groups.google.com/forum/ Но когда я запускаю код, появляется следующая ошибка 1…
12 ноя '14 в 08:55
0 ответов

Ошибка отправки PDF с использованием SolrJ и Solr 5.1.0

Я использую Solr для извлечения информации из базы данных и файловой системы одновременно. База данных содержит путь к файлу файла в файловой системе. Это тянет всех тех просто отлично. На самом деле, он отлично сочетает метаданные из базы данных и …
18 июн '15 в 15:16
1 ответ

Пользовательское выражение xpath с тика

Я пытаюсь создать пользовательский xpath contentHandler для tika, который распознает сложное выражение xpath, используя код из org/apache/tika/sax/BodyContentHandler.java (потому что я использую tika для других вещей) Этот xpath работает /xhtml:html…
23 авг '11 в 20:15
1 ответ

Извлеките только имена файлов из архива, используя Apache Tika

Я хочу, чтобы Тика выводила только имена файлов в архиве (если входной файл является архивом) и содержимое файла как обычно, если входной файл не является архивом. Как я могу это сделать?
27 сен '12 в 11:08
0 ответов

Извлечение изображений из HTML из <div> с помощью Tika

У меня есть следующий файл xhtml, который содержит около 30-40 изображений. Файл генерируется автоматически, и номера изображения изменяются, но содержание {html text}, которое действительно должно быть, не меняется. Я надеялся, что кто-то может ука…
15 сен '12 в 17:08
0 ответов

Ошибки solrnet после новой установки (tomcat 8 / solr 4.10.0 windows server 2012 machine)

Я сталкиваюсь с проблемой Solrnet, которая кажется случайной: когда я пытаюсь использовать метод solr.extract для извлечения содержимого из файлов PDF/word... (или solr.commit... ect), я получаю следующая ошибка: 23-окт-2014 23:03:03.729 SEVERE [htt…
24 окт '14 в 07:20
2 ответа

Как включить / отключить индексацию на веб-странице

Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хочу включить и выключить индексацию контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответственно? Например, при использовании Google Searc…
17 май '13 в 09:55
1 ответ

Grails Tika Plugin - Как мне отправить файл из базы данных в tika для разбора

Я использовал этот пример, чтобы загрузить и загрузить файл в базу данных. Как я могу отправить этот файл TikaService У меня есть данные и разобрать? Учебник сохраняет filename а также filedata по отдельности. filedata это двоичные данные. Я могу ра…
19 фев '16 в 21:02
1 ответ

Как получить текстовые файлы содержимого с тика 1.6?

Привет я пытаюсь получить текстовое содержимое из любых файлов в этом списке pdf,txt,doc,docx и odt. Реализация с тика ранее работала нормально, но теперь не работает, код такой: `` ` public void uploadFile(FileUploadEvent event) throws Exception { …
15 янв '15 в 17:10
2 ответа

SolrInputDocument/tika Извлечение медленно для индексации многих документов

Я использую Solr 4.5. Я пытаюсь перебрать несколько файлов HTML, чтобы извлечь данные из файла, используя Apache Tika 1.4. Затем добавьте эти поля метаданных в SolrInputDocument. Каждый раз мне приходится зацикливать файл и создавать экземпляр SolrI…
25 фев '14 в 23:38
1 ответ

Интеграция Apache TIKA и Solr Cell с Solr для индексирования документов PDF и Word

Я делаю POC для индексации документов PDF и Word с помощью поисковой системы Solr. Я пытался найти подробную информацию или статьи на уровне, но не нашел \ подробных статей для этого. То, что я нашел, это использовать какой-то пример пакета solr. Эт…
28 апр '15 в 11:16
2 ответа

Получить имя файла из байтового массива

Мы можем извлечь mimetype из байтового массива, например, используя Apache Tika. Можно ли получить имя файла из массива байтов.
27 мар '12 в 07:14
2 ответа

Получение абсолютного URL с веб-страницы

Я хочу извлечь полную ссылку из файла HTML. Полная ссылка Я имею в виду абсолютные ссылки. Я использовал Тика для этой цели. Вот мой код: URL url = new URL("http://www.domainname.com/"); InputStream input = url.openStream(); LinkContentHandler linkH…
05 окт '13 в 10:28
1 ответ

Solr SimplePostTool: IOException при чтении ответа: java.net.SocketException: неожиданный конец файла с сервера

Я пытаюсь проиндексировать большой файловый репозиторий (более 10000 документов каждого формата под солнцем) с помощью Simpleposttool (bin/post) в Solr 6.1.0. Он будет работать довольно долго без проблем, после чего произойдет сбой: POSTing file Thi…
14 июл '16 в 19:40
0 ответов

Потеря входного потока в Apache Tika

Я получаю поток ввода из HttpRequest и использую тот же поток ввода для извлечения метаданных. как показано ниже. ServletFileUpload upload = new ServletFileUpload(); FileItemIterator iter = upload.getItemIterator(request); --- more lines for the ite…
29 апр '14 в 14:29