Существует ли самообучающийся инструмент с открытым исходным кодом?

Question

Существует ли самообучающийся инструмент с открытым исходным кодом?

Мне нужно реализовать какой-то стеммер / лемматизатор. У меня есть несколько слов в разных формах (несколько тысяч). Это не морфологический словарь, просто небольшая его часть. Это хорошая идея, чтобы выучить stemmer автоматически из файла иметь? Есть ли реализации с открытым исходным кодом, которые можно использовать?

1

nlp stemming lemmatization morphological-analysis

Источник

user609063 09 апр '13 в 16:46

4 ответа

Другие вопросы по тегам nlp stemming lemmatization morphological-analysis

user339246 10 ноя '14 в 12:58 2014-11-10 12:58 · Answer 1 · 2014-11-10 12:58

Nuve - это библиотека НЛП для тюркских языков. Как только языковые правила и данные подготовлены, он может анализировать и генерировать слова для любого тюркского языка, если не для любого агглютинативного языка. Вы можете раскошелиться и подготовить новые файлы орфографии и морфологии для азери.

https://github.com/hrzafer/nuve

Поскольку я автор, я был бы рад помочь вам в этом процессе.

user264596 29 июн '13 в 21:52 2013-06-29 21:52 · Answer 2 · 2013-06-29 21:52

Азербайджанский является агглютинативным языком, похожим на турецкий, что означает, что слова часто имеют цепочку суффиксов (например, один суффикс для множественного числа и один для винительного падежа). Также у него есть гармония гласных, что означает, что у каждого суффикса есть несколько вариантов, и вы выбираете правильный, основываясь на гласных в корне.

Что бы я сделал:

определить список суффиксов. Я бы попробовал как неконтролируемые методы ("может быть, попробовать Linguistica"), так и поиск в поиске списка суффиксов (они часто содержат только базовый суффикс, который изменяется в зависимости от гармонии гласных). Итеративно вы должны прийти к некоторому разумному списку. Если вы сомневаетесь, является ли что-то суффиксом или нет, я бы добавил это.
Используйте список для удаления суффиксов из слов.

Получившийся стеммер будет шумным, но в зависимости от того, для чего он вам нужен, это может не иметь значения.

user3986209 22 сен '14 в 06:22 2014-09-22 06:22 · Answer 3 · 2014-09-22 06:22

Вы должны взглянуть на Linguistica, которая была разработана Джоном Голдсмитом и его командой (@UChicago) для этой цели.

1

Источник

user3986209 22 сен '14 в 06:22

user1582948 09 апр '13 в 19:26 2013-04-09 19:26 · Answer 4 · 2013-04-09 19:26

Ты говоришь об английском? Тогда, пожалуйста, посмотрите английские базы данных лемматизатора?, Учитывая значительное количество исключений, подход машинного обучения без большого словаря не кажется многообещающим.

0

Источник

user1582948 09 апр '13 в 19:26