Как обозначить слово исключение для stemming в Hunspell
Я использую Hunspell для определения слов в экземпляре SOLR. По большей части это, кажется, работает хорошо.
Я использую файлы OpenOffice dic / aff.
Тем не менее, есть некоторые заметные исключения в словах, и я хотел бы иметь возможность удалить их в качестве кандидатов на сокращение.
Отличным примером является "лыжник", который связан с "небом" из-за следующего:
in the .dic file
sky/MDRSGZ
relevant rule in the .aff file
SFX R y ier [^aeiou]y
Есть ли способ указать, что skier
и только skier
нужно оставить в покое?
2 ответа
Да, это очень распространенная вещь, просто удалите "R"
sky/MDSGZ
Но затем вы можете захотеть добавить обратно в другую строку "лыжник" и любые другие его версии.
skier/MS
Мне пришлось внести многочисленные изменения в этот файл, и теперь очень хотелось бы, чтобы был лучший вариант. Например
- Масло -> приклад
- Уголок -> Кукуруза
- Пасха -> Восток
А потом еще один, который действительно сбивает с толку,
- Ветер == Рана
На моем сайте, прежде чем мы исправили это, если вы искали ветер, как в "энергии ветра", у вас получалось множество синяков и кровавых ран. Потому что "рана", как в "Я заводил часы", остановилась на ветру.
Мы также решили удалить все префиксы RE. потому что такие вещи, как
- замечательная -> оценка
- удалить -> переместить
- сброс -> установить
- восстановить -> магазин
Поэтому, если вы знаете лучший словарь, который лучше для этого, пожалуйста, дайте мне знать. (Я думаю, что главная проблема в том, что этот словарь больше предназначен для проверки орфографии, чем для определения)
Я был бы готов начать и / или внести свой вклад в проект git для реального словаря с основами, чтобы заменить этот словарь правописания для всех, кто использует это.
Ты пробовал фрилинг? Это с открытым исходным кодом.
Демо-страница находится здесь: http://nlp.lsi.upc.edu/freeling/demo/demo.php
Когда я выбираю английский язык, я получаю следующий результат:
you wound the clock?
you wind the clock?
PRP VBD DT NN ?
также лыжник, энергия ветра все получают существительные основы. Это отличный стеммер и анализатор.
не уверен насчет лицензирования. страница загрузки: http://devel.cpl.upc.edu/freeling/downloads?order=time&desc=1