Описание тега apache-tika

Набор инструментов Apache Tika™ обнаруживает и извлекает метаданные и структурированный текстовый контент из различных документов, используя существующие библиотеки парсеров.

Tika предоставляет возможности для идентификации более 1400 типов файлов из таксономии типов MIME в Internet Assigned Numbers Authority.

Для большинства наиболее распространенных и популярных форматов Tika предоставляет возможности извлечения контента, метаданных и идентификации языка.

Хотя Tika написана на Java, она широко используется в других языках. Сервер RESTful и инструмент командной строки позволяют программам, не относящимся к Java, получать доступ к функциям Tika.

https://stackru.com/images/94752dd40038c56aecce79c2cf557f2952d5a35e.jpg

Связанные теги:

apache-tika tika-server mime-types metadata tesseract language-detection parsing