Определите тип MIME для файлов.TXT для Tika
Я хочу определить тип MIME для файлов *.txt: text/txt
, так что Тика может применить более специфический парсер, чем тот, который используется для text/plain
файлы.
Глобус *.txt
включен в определение типа text/plain
в tika-mimetypes.xml
, Более того, мне кажется, что вы не можете переопределить тип MIME в custom-mimetypes.xml
, только добавить новые шары или магические узоры. Кроме того, если я определю text/txt
введите tika-mimetypes.xml
как подтип text/plain
только с шаром *.txt
Тика все еще обнаруживает текстовый файл как text/plain
,
Абсурдно ли определять подтип text/plain
только для текстовых файлов? Если нет, то возможно ли определить его только с custom-mimetypes.xml
? Если нет, то какой самый простой способ расширить tika, чтобы он мог анализировать txt-файлы иначе, чем (скажем,) STEP 3D CAD файлы.stp или.cfg?
Подробное описание варианта использования: у меня большой источник данных, состоящий из (рекурсивных) архивов. Некоторые текстовые файлы огромны, и я не хочу, чтобы Тика их анализировала. Тем не менее, я хочу сохранить все текстовые файлы.
Редактировать: указать, что я не хочу сохранять файлы.cfg (*.cfg
это шар text/plain
)