Добавление языкового профиля в Apache Tika
Может ли кто-нибудь, кто сумел это сделать, объяснить, как это сделать:-)
Нужно ли мне получать n-граммовые файлы для языка, который мне нужно добавить?
Это вопрос создания tika.language.override.properties
, добавить другие коды lang и добавить файл nang-lang-code.ngp в classPath? В таком случае, где мне его взять и почему Тика не поддерживает больше языков, если это просто вопрос?
В настоящее время эти языки поддерживаются для определения языка
da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th
и тика использует традиционные н-граммовые обозначения
er_ 132232
_de 103517
en_ 82666
et_ 80661
for 65286
_fo 57945
de_ 51382
der 44049
at_ 41915
det 41381
_og 40344
_at 39482
ing 38707
den 36795
og_ 36577
_me 34924
nde 34528
Это приложение для обнаружения lang в настоящее время поддерживает эти языки, но имеет несколько разные n-граммовые файлы
af bg cs de en fa fr he hr id ja ko ml ne no pl ro sk sq sw te tl uk vi zh-tw ar bn da el es fi gu hi hu it kn mk mr nl pa pt ru so sv ta th tr ur zh-cn
в нотации JSON
{"freq":{"D":9246,"E":2445,"F":2510,"G":3299,"A":6930,"B":3706,"C":2451,"L":2519,"M":3951,"N":3334,"O":2514,"H" ....
1 ответ
Похоже, что в TIKA-490 должна быть возможность добавлять новые языковые профили. TIKA-546, кажется, указывает, что это еще не так просто, как могло бы быть, и в то же время вам нужно начать с инструмента Nutch NGramProfile Nutch и настроить вывод.
Я бы посоветовал вам попробовать использовать инструмент Nutch для генерации файлов, а затем посмотреть комментарии к TIKA-490, чтобы узнать, как их использовать.