Определите тип MIME для файлов.TXT для Tika

Я хочу определить тип MIME для файлов *.txt: text/txt, так что Тика может применить более специфический парсер, чем тот, который используется для text/plain файлы.

Глобус *.txt включен в определение типа text/plain в tika-mimetypes.xml, Более того, мне кажется, что вы не можете переопределить тип MIME в custom-mimetypes.xml, только добавить новые шары или магические узоры. Кроме того, если я определю text/txt введите tika-mimetypes.xml как подтип text/plain только с шаром *.txtТика все еще обнаруживает текстовый файл как text/plain,

Абсурдно ли определять подтип text/plain только для текстовых файлов? Если нет, то возможно ли определить его только с custom-mimetypes.xml? Если нет, то какой самый простой способ расширить tika, чтобы он мог анализировать txt-файлы иначе, чем (скажем,) STEP 3D CAD файлы.stp или.cfg?

Подробное описание варианта использования: у меня большой источник данных, состоящий из (рекурсивных) архивов. Некоторые текстовые файлы огромны, и я не хочу, чтобы Тика их анализировала. Тем не менее, я хочу сохранить все текстовые файлы.

Редактировать: указать, что я не хочу сохранять файлы.cfg (*.cfg это шар text/plain)

0 ответов

Другие вопросы по тегам