Описание тега apache-tika

Описание тега Вопросы с тегом

Набор инструментов Apache Tika™ обнаруживает и извлекает метаданные и структурированный текстовый контент из различных документов, используя существующие библиотеки парсеров.

2 ответа

Тика AutoDetectParser возвращает пустую строку?

Я пытаюсь использовать AutoDetectParser от Tika для извлечения содержимого файла. Первоначально я думал, что это проблема зависимости, но не могу понять, как это все еще может быть правдой сейчас, когда я включаю все tika-app в мою банку. AutoDetect…

java ant apache-tika

21 дек '15 в 20:04

0 ответов

Тика не может правильно читать текст из файла PDF

Я новичок в Apache Тика. У меня есть два файла PDF с другим шрифтом, но tika не может правильно читать, у одного шрифт Shruti, который правильно читается с помощью tika, но у другого файла шрифт lmg-rupen, который не читается правильно с tika, есть …

java pdf lucene pdfbox apache-tika

30 июл '16 в 16:56

2 ответа

Как проверить, что содержимое файла действительно изображение

Для определения реального типа файла на основе содержимого файла (а не расширения) я использую apache Tika. Я написал следующий код: InputStream theInputStream = new FileInputStream("D:\\video.mp4"); try (InputStream is = theInputStream; BufferedInp…

java apache-tika file-type

11 июл '15 в 20:17

1 ответ

Проблемы с анализом таблицы внутри файла RTF с использованием Apache Tika

Я пытаюсь разобрать файл RTF с помощью Apache Tika. Внутри файла есть таблица с несколькими столбцами. Проблема в том, что анализатор записывает результат без какой-либо информации, в каком столбце было значение. Что я делаю сейчас: AutoDetectParser…

java parsing rtf apache-tika

16 апр '12 в 08:06

2 ответа

Плагин прикрепления Elasticsearch против собственной реализации Tika

Я хочу использовать инструментарий Tika для индексирования содержимого файлов документов (pdf, docx...) и изображений (через плагин tesseract). Я попробовал подключаемый модуль эластичного вложения ( https://www.elastic.co/guide/en/elasticsearch/plu…

elasticsearch apache-tika

06 ноя '16 в 17:53

0 ответов

Извлечение содержимого документа с использованием Apache Tika и Cloudera Hadoop

Я пытаюсь извлечь контент из документа с помощью Apache Tika jar 1.6 и запускаю задание MapReduce с использованием CDH4.6. Я использовал код формы по ссылке ниже https://groups.google.com/forum/ Но когда я запускаю код, появляется следующая ошибка 1…

java hadoop apache-tika

12 ноя '14 в 08:55

0 ответов

Ошибка отправки PDF с использованием SolrJ и Solr 5.1.0

Я использую Solr для извлечения информации из базы данных и файловой системы одновременно. База данных содержит путь к файлу файла в файловой системе. Это тянет всех тех просто отлично. На самом деле, он отлично сочетает метаданные из базы данных и …

java solr solrj apache-tika

18 июн '15 в 15:16

1 ответ

Пользовательское выражение xpath с тика

Я пытаюсь создать пользовательский xpath contentHandler для tika, который распознает сложное выражение xpath, используя код из org/apache/tika/sax/BodyContentHandler.java (потому что я использую tika для других вещей) Этот xpath работает /xhtml:html…

apache-tika

23 авг '11 в 20:15

1 ответ

Извлеките только имена файлов из архива, используя Apache Tika

Я хочу, чтобы Тика выводила только имена файлов в архиве (если входной файл является архивом) и содержимое файла как обычно, если входной файл не является архивом. Как я могу это сделать?

java apache parsing apache-tika

27 сен '12 в 11:08

0 ответов

Извлечение изображений из HTML из <div> с помощью Tika

У меня есть следующий файл xhtml, который содержит около 30-40 изображений. Файл генерируется автоматически, и номера изображения изменяются, но содержание {html text}, которое действительно должно быть, не меняется. Я надеялся, что кто-то может ука…

java apache xhtml apache-tika

15 сен '12 в 17:08

0 ответов

Ошибки solrnet после новой установки (tomcat 8 / solr 4.10.0 windows server 2012 machine)

Я сталкиваюсь с проблемой Solrnet, которая кажется случайной: когда я пытаюсь использовать метод solr.extract для извлечения содержимого из файлов PDF/word... (или solr.commit... ect), я получаю следующая ошибка: 23-окт-2014 23:03:03.729 SEVERE [htt…

tomcat solr apache-tika solrnet

24 окт '14 в 07:20

2 ответа

Как включить / отключить индексацию на веб-странице

Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хочу включить и выключить индексацию контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответственно? Например, при использовании Google Searc…

solr nutch apache-tika

17 май '13 в 09:55

1 ответ

Grails Tika Plugin - Как мне отправить файл из базы данных в tika для разбора

Я использовал этот пример, чтобы загрузить и загрузить файл в базу данных. Как я могу отправить этот файл TikaService У меня есть данные и разобрать? Учебник сохраняет filename а также filedata по отдельности. filedata это двоичные данные. Я могу ра…

grails io apache-tika

19 фев '16 в 21:02

1 ответ

Как получить текстовые файлы содержимого с тика 1.6?

Привет я пытаюсь получить текстовое содержимое из любых файлов в этом списке pdf,txt,doc,docx и odt. Реализация с тика ранее работала нормально, но теперь не работает, код такой: `` ` public void uploadFile(FileUploadEvent event) throws Exception { …

java-ee apache-tika

15 янв '15 в 17:10

2 ответа

SolrInputDocument/tika Извлечение медленно для индексации многих документов

Я использую Solr 4.5. Я пытаюсь перебрать несколько файлов HTML, чтобы извлечь данные из файла, используя Apache Tika 1.4. Затем добавьте эти поля метаданных в SolrInputDocument. Каждый раз мне приходится зацикливать файл и создавать экземпляр SolrI…

solr apache-tika

25 фев '14 в 23:38

1 ответ

Интеграция Apache TIKA и Solr Cell с Solr для индексирования документов PDF и Word

Я делаю POC для индексации документов PDF и Word с помощью поисковой системы Solr. Я пытался найти подробную информацию или статьи на уровне, но не нашел \ подробных статей для этого. То, что я нашел, это использовать какой-то пример пакета solr. Эт…

solr apache-tika solrnet solr-cell

28 апр '15 в 11:16

2 ответа

Получить имя файла из байтового массива

Мы можем извлечь mimetype из байтового массива, например, используя Apache Tika. Можно ли получить имя файла из массива байтов.

java filenames bytearray apache-tika

27 мар '12 в 07:14

2 ответа

Получение абсолютного URL с веб-страницы

Я хочу извлечь полную ссылку из файла HTML. Полная ссылка Я имею в виду абсолютные ссылки. Я использовал Тика для этой цели. Вот мой код: URL url = new URL("http://www.domainname.com/"); InputStream input = url.openStream(); LinkContentHandler linkH…

java html apache-tika

05 окт '13 в 10:28

1 ответ

Solr SimplePostTool: IOException при чтении ответа: java.net.SocketException: неожиданный конец файла с сервера

Я пытаюсь проиндексировать большой файловый репозиторий (более 10000 документов каждого формата под солнцем) с помощью Simpleposttool (bin/post) в Solr 6.1.0. Он будет работать довольно долго без проблем, после чего произойдет сбой: POSTing file Thi…

java solr solrj apache-tika

14 июл '16 в 19:40

0 ответов

Потеря входного потока в Apache Tika

Я получаю поток ввода из HttpRequest и использую тот же поток ввода для извлечения метаданных. как показано ниже. ServletFileUpload upload = new ServletFileUpload(); FileItemIterator iter = upload.getItemIterator(request); --- more lines for the ite…

apache-tika

29 апр '14 в 14:29