Описание тега tika-server

0 ответов

Разбираем подборку типов с Тика

Я хочу, чтобы Тика разобрала только zip-файлы и pdf-файлы. Со следующим tika_config.xml: <?xml version="1.0" encoding="UTF-8"?> <properties> <parsers> <parser class="org.apache.tika.parser.pkg.PackageParser"/> <parser clas…
21 янв '18 в 19:35
0 ответов

Сервер Apache Tika, как хранятся отправленные файлы

Я хочу использовать сервер Apache Tika, но не могу найти какую-либо информацию о том, как хранятся отправленные файлы, или Tika удаляет их после того, как они проанализированы и возвращен простой текст.
27 ноя '18 в 09:51
1 ответ

Как включить TesseractOCRParser с помощью TikaConfig и утилиты командной строки Tika?

Я установил apache Tika 1.8, и он работает отлично, за исключением того, что часть OCR не работает. У меня установлен Tesseract, и он также работает правильно. Когда я пытаюсь отправить PDF с изображением, я получаю следующее. ВНИМАНИЕ: Tesseract OC…
02 авг '18 в 13:59
0 ответов

Определите тип MIME для файлов.TXT для Tika

Я хочу определить тип MIME для файлов *.txt: text/txt, так что Тика может применить более специфический парсер, чем тот, который используется для text/plain файлы. Глобус *.txt включен в определение типа text/plain в tika-mimetypes.xml, Более того, …
23 янв '18 в 21:52
0 ответов

TikaJAXRS PUT от клиента Python

Apache Tika должен быть доступен из программы Python через HTTP, но я не могу заставить его работать. Я использую эту команду для запуска сервера (с двумя опциями и без них в конце): java -jar tika-server-1.17.jar --port 5677 -enableUnsecureFeatures…
07 апр '18 в 13:00
0 ответов

Получить все метаданные файла apache tika TikaJAXRS

Привет, я развернул https://wiki.apache.org/tika/TikaJAXRS на сервере, и когда я загружаю файл и звоню /meta я получаю ответ ниже для файла docx u'{"Content-Encoding":"UTF-16LE","Content-Type":"application/json; charset\u003dUTF-16LE","X-Parsed-By":…
09 авг '17 в 07:00
1 ответ

JNIUS & TIKA - ошибка при попытке parseToString

Попытался запустить tike-приложение с помощью jnius, но возникла проблема (macOS Sierra, Java 1.8 JDK, Python 2.7 и Python 3.6) Все работает нормально (вывод для tika.detect в порядке) до parseToString команда. Кажется, есть всплывающее окно, если в…
14 май '17 в 09:55
0 ответов

Вывод для TikaBatch через tika-app-XYjar

Я пытаюсь извлечь текст для группы документов (.pdf, .doc и т. Д.), Присутствующих в "Ввод" с помощью (в Cygwin) java -jar tika-app-1.14.jar -t -i /Inputfolder -o /Outputfolder Причиной ForForerermination является "COMPLETED_NORMALLY", но я не вижу …
0 ответов

CURL в PHP для вызова сервера Tika с удаленным файлом

Я застрял с этим довольно давно. Я хочу проанализировать PDF в текст, используя Tika, размещенную на внешнем сервере, выделенном для этого. Он должен работать с любым удаленным URL-адресом в формате pdf и любым сервером Tika (в настоящее время с пом…
28 июн '17 в 21:57
0 ответов

FileNotFoundException с сервером Тика

Я использую тика-сервер для преобразования DOC, DOCX и PDF в текст. Но это выдает эту ошибку: java.io.FileNotFoundException: https:/filters-api.s3.amazonaws.com/media/resumes/df859b34-a0a0-4c21-a49e-7d4e761730b6.pdf (No such file or d irectory) at j…
11 июн '18 в 17:12
0 ответов

Apache Tika продолжает умирать

Я использую openEdgar для анализа данных заявок SEC и использует Apache Tika для анализа содержимого HTML, XML и LBRL. Я запускаю это на коробке с 4G памяти, и она продолжает умирать от меня. Я закончил тем, что начал это так: java -Dlog4j.configura…
0 ответов

Получение 422 ответа от apache Tika с python 2

Может кто-нибудь, пожалуйста, помогите мне решить упомянутую ошибку? Я удалил тика и переустановил его, но получаю ошибку. Я понятия не имею, как решить эту ошибку.
01 дек '18 в 14:08
0 ответов

Игнорируйте содержимое боковой панели и получайте основной текст, используя Apache Tika

Я должен проанализировать несколько веб-сайтов необработанных данных и хочу получить только текст основной истории. На многих страницах я также наблюдал некоторые боковые панели (например, эту страницу в реальном времени). Когда я анализирую докумен…
14 ноя '17 в 05:30
2 ответа

Apache Tika: разбор docx файлов через Rest в java

Я использую Appache Tika в режиме сервера. Мне нужно разработать Java-клиент отдыха для анализа файлов. Для загрузки файла PDF я использую код: fileBody = new FileBody(file, "application/pdf"); multiPartEntity.addPart("uploaded_file", fileBody); pdf…
28 фев '17 в 11:59
0 ответов

REST-сервер Apache Tika // Код 422 (необработанный объект) для разных состояний? -> Как отличить?

REST-сервер Apache Tika предоставляет PDF-документ с кодом состояния пароля 422 (Unprocessable Entity). Если формат файла не поддерживается, отправляется также 422. К сожалению, невозможно определить, нельзя ли определить метаданные файла из-за шифр…
11 май '18 в 12:57
1 ответ

Как изменить языковой параметр, который Тика передает в Tesseract OCR?

В настоящее время я использую tika-app-1.16.jar для распознавания моих PDF-файлов (в сочетании с Tesseract): java -jar tika-app-1.16.jar /tmp/testing/input.pdf Однако по умолчанию он поддерживает только английский язык. И я хотел бы найти способ пер…
24 ноя '17 в 14:25
1 ответ

Apache Tika на Python извлекает текст из PDF на MacBook Pro, но не на сервере Windows

Как и выше, я извлекаю текст из нескольких документов, используя tika в python, но в одном конкретном PDF-файле он извлекает текст на моей машине для разработки (MacBook Pro), но не на Windows Server 2012, где он возвращает NoneType. Очень запутанно…
05 дек '18 в 13:14
0 ответов

Извлечение метаданных файлов в HDFS с использованием Apache Tika и Apache Spark

У меня большой объем изображений /pdfs/ отсканированных документов и т. Д. В HDFS, я хочу выполнить базовое извлечение метаданных из этих файлов, например размер файла, имя создателя файла, подписи, заголовки, комментарии и т. Д. Я новичок в интелле…
0 ответов

Как ограничить количество извлекаемого текста с сервера Tika?

В моем сценарии у меня есть несколько больших файлов PDF, и я хотел бы ограничить объем текста, извлекаемого и возвращаемого сервером tika. Я знаю, что это возможно, используя библиотеку Java напрямую. Тем не менее, как я могу это сделать при отправ…
05 янв '17 в 23:24
1 ответ

В чем разница между приложением Tika, Tika Server и Java Wrapper. Какой используется и когда?

Я хочу использовать Apache Tika для больших и больших документов корпоративного уровня. Какой из них я использую, сервер Tika, приложение Tika или вызовы Java? Можете ли вы предложить мне архитектуру системы? (т. е. нагрузка на баланс 3-4 тика физич…
01 мар '18 в 22:20