Описание тега tika-server
0
ответов
Разбираем подборку типов с Тика
Я хочу, чтобы Тика разобрала только zip-файлы и pdf-файлы. Со следующим tika_config.xml: <?xml version="1.0" encoding="UTF-8"?> <properties> <parsers> <parser class="org.apache.tika.parser.pkg.PackageParser"/> <parser clas…
21 янв '18 в 19:35
0
ответов
Сервер Apache Tika, как хранятся отправленные файлы
Я хочу использовать сервер Apache Tika, но не могу найти какую-либо информацию о том, как хранятся отправленные файлы, или Tika удаляет их после того, как они проанализированы и возвращен простой текст.
27 ноя '18 в 09:51
1
ответ
Как включить TesseractOCRParser с помощью TikaConfig и утилиты командной строки Tika?
Я установил apache Tika 1.8, и он работает отлично, за исключением того, что часть OCR не работает. У меня установлен Tesseract, и он также работает правильно. Когда я пытаюсь отправить PDF с изображением, я получаю следующее. ВНИМАНИЕ: Tesseract OC…
02 авг '18 в 13:59
0
ответов
Определите тип MIME для файлов.TXT для Tika
Я хочу определить тип MIME для файлов *.txt: text/txt, так что Тика может применить более специфический парсер, чем тот, который используется для text/plain файлы. Глобус *.txt включен в определение типа text/plain в tika-mimetypes.xml, Более того, …
23 янв '18 в 21:52
0
ответов
TikaJAXRS PUT от клиента Python
Apache Tika должен быть доступен из программы Python через HTTP, но я не могу заставить его работать. Я использую эту команду для запуска сервера (с двумя опциями и без них в конце): java -jar tika-server-1.17.jar --port 5677 -enableUnsecureFeatures…
07 апр '18 в 13:00
0
ответов
Получить все метаданные файла apache tika TikaJAXRS
Привет, я развернул https://wiki.apache.org/tika/TikaJAXRS на сервере, и когда я загружаю файл и звоню /meta я получаю ответ ниже для файла docx u'{"Content-Encoding":"UTF-16LE","Content-Type":"application/json; charset\u003dUTF-16LE","X-Parsed-By":…
09 авг '17 в 07:00
1
ответ
JNIUS & TIKA - ошибка при попытке parseToString
Попытался запустить tike-приложение с помощью jnius, но возникла проблема (macOS Sierra, Java 1.8 JDK, Python 2.7 и Python 3.6) Все работает нормально (вывод для tika.detect в порядке) до parseToString команда. Кажется, есть всплывающее окно, если в…
14 май '17 в 09:55
0
ответов
Вывод для TikaBatch через tika-app-XYjar
Я пытаюсь извлечь текст для группы документов (.pdf, .doc и т. Д.), Присутствующих в "Ввод" с помощью (в Cygwin) java -jar tika-app-1.14.jar -t -i /Inputfolder -o /Outputfolder Причиной ForForerermination является "COMPLETED_NORMALLY", но я не вижу …
25 апр '17 в 23:57
0
ответов
CURL в PHP для вызова сервера Tika с удаленным файлом
Я застрял с этим довольно давно. Я хочу проанализировать PDF в текст, используя Tika, размещенную на внешнем сервере, выделенном для этого. Он должен работать с любым удаленным URL-адресом в формате pdf и любым сервером Tika (в настоящее время с пом…
28 июн '17 в 21:57
0
ответов
FileNotFoundException с сервером Тика
Я использую тика-сервер для преобразования DOC, DOCX и PDF в текст. Но это выдает эту ошибку: java.io.FileNotFoundException: https:/filters-api.s3.amazonaws.com/media/resumes/df859b34-a0a0-4c21-a49e-7d4e761730b6.pdf (No such file or d irectory) at j…
11 июн '18 в 17:12
0
ответов
Apache Tika продолжает умирать
Я использую openEdgar для анализа данных заявок SEC и использует Apache Tika для анализа содержимого HTML, XML и LBRL. Я запускаю это на коробке с 4G памяти, и она продолжает умирать от меня. Я закончил тем, что начал это так: java -Dlog4j.configura…
20 дек '18 в 20:24
0
ответов
Получение 422 ответа от apache Tika с python 2
Может кто-нибудь, пожалуйста, помогите мне решить упомянутую ошибку? Я удалил тика и переустановил его, но получаю ошибку. Я понятия не имею, как решить эту ошибку.
01 дек '18 в 14:08
0
ответов
Игнорируйте содержимое боковой панели и получайте основной текст, используя Apache Tika
Я должен проанализировать несколько веб-сайтов необработанных данных и хочу получить только текст основной истории. На многих страницах я также наблюдал некоторые боковые панели (например, эту страницу в реальном времени). Когда я анализирую докумен…
14 ноя '17 в 05:30
2
ответа
Apache Tika: разбор docx файлов через Rest в java
Я использую Appache Tika в режиме сервера. Мне нужно разработать Java-клиент отдыха для анализа файлов. Для загрузки файла PDF я использую код: fileBody = new FileBody(file, "application/pdf"); multiPartEntity.addPart("uploaded_file", fileBody); pdf…
28 фев '17 в 11:59
0
ответов
REST-сервер Apache Tika // Код 422 (необработанный объект) для разных состояний? -> Как отличить?
REST-сервер Apache Tika предоставляет PDF-документ с кодом состояния пароля 422 (Unprocessable Entity). Если формат файла не поддерживается, отправляется также 422. К сожалению, невозможно определить, нельзя ли определить метаданные файла из-за шифр…
11 май '18 в 12:57
1
ответ
Как изменить языковой параметр, который Тика передает в Tesseract OCR?
В настоящее время я использую tika-app-1.16.jar для распознавания моих PDF-файлов (в сочетании с Tesseract): java -jar tika-app-1.16.jar /tmp/testing/input.pdf Однако по умолчанию он поддерживает только английский язык. И я хотел бы найти способ пер…
24 ноя '17 в 14:25
1
ответ
Apache Tika на Python извлекает текст из PDF на MacBook Pro, но не на сервере Windows
Как и выше, я извлекаю текст из нескольких документов, используя tika в python, но в одном конкретном PDF-файле он извлекает текст на моей машине для разработки (MacBook Pro), но не на Windows Server 2012, где он возвращает NoneType. Очень запутанно…
05 дек '18 в 13:14
0
ответов
Извлечение метаданных файлов в HDFS с использованием Apache Tika и Apache Spark
У меня большой объем изображений /pdfs/ отсканированных документов и т. Д. В HDFS, я хочу выполнить базовое извлечение метаданных из этих файлов, например размер файла, имя создателя файла, подписи, заголовки, комментарии и т. Д. Я новичок в интелле…
02 фев '19 в 06:25
0
ответов
Как ограничить количество извлекаемого текста с сервера Tika?
В моем сценарии у меня есть несколько больших файлов PDF, и я хотел бы ограничить объем текста, извлекаемого и возвращаемого сервером tika. Я знаю, что это возможно, используя библиотеку Java напрямую. Тем не менее, как я могу это сделать при отправ…
05 янв '17 в 23:24
1
ответ
В чем разница между приложением Tika, Tika Server и Java Wrapper. Какой используется и когда?
Я хочу использовать Apache Tika для больших и больших документов корпоративного уровня. Какой из них я использую, сервер Tika, приложение Tika или вызовы Java? Можете ли вы предложить мне архитектуру системы? (т. е. нагрузка на баланс 3-4 тика физич…
01 мар '18 в 22:20