Извлечение ключевых слов из научных отчетов
Я работаю в институте, который проводит исследования в области физики, и за эти годы накопилось много отчетов об этих исследованиях. Эти отчеты составлены на немецком языке и содержат некоторую метаинформацию, результаты экспериментов в табличной форме и, конечно же, письменную часть. Теперь я хотел организовать все эти отчеты и создать инструмент, в котором сгруппированы отчеты, охватывающие одни и те же темы и области исследования. Я прочитал об извлечении ключевых слов и попытался автоматически найти темы с помощью TD-IDF и RAKE, но результаты всегда были неудовлетворительными. Фактическая область исследования никогда не была частью результата, что имеет смысл, потому что, конечно, не слишком часто упоминается в самом тексте.
Моя следующая идея заключалась в том, чтобы реализовать библиотеку возможных тем и взвесить эти слова выше, когда они встречаются в тексте. Но это было бы действительно неоптимально, поскольку во время исследования быстро возникают новые темы и ключевые слова, и библиотеку нужно будет расширять.
Прежде чем попробовать это, я хотел бы попросить здесь совета. Возможно ли вообще извлечь эти темы автоматически и без предопределенной библиотеки? Жду любых отзывов!