Улучшено извлечение ключевых слов для коротких документов
У меня есть большая база исторических событий с описаниями порядка 10-30 слов каждое. Я пытаюсь создать средство извлечения ключевых слов, которое будет разумно помечать каждый документ 1-3 граммами в отношении базы данных в целом, чтобы теги могли использоваться повторно как можно чаще.
Сначала приходит на ум TF-IDF, но у меня плохие результаты, например, инструмент TFIDF Natural.js (который не использует n-грамм).
Я видел много интересных исследований по более продвинутым методам ML (тематическая модель Biterm, неконтролируемая кластеризация и т. Д.), Но я не могу найти какие-либо полезные реализации. Что-то там мне не хватает?