Хорошо ли использовать временные теги Стэнфорда для больших данных?
Я изучаю Stanford Temporal Tagger для моего проекта по извлечению сущности даты из текста. Демо из http://nlp.stanford.edu:8080/sutime/process выглядит многообещающим. Я хотел бы понять, является ли эта библиотека зрелой. А также кто-то помог мне понять, как эта библиотека работает с большими данными. Было бы также полезно, если бы вы могли рассказать мне о других библиотеках временных тегов на основе Java, особенно для больших данных. Есть ли проект apache, который делает временные теги?
Я нашел некоторые из библиотек, как
1 ответ
Да, библиотека SUTime является зрелой и достаточно точной, и на ней было написано более десятков миллионов слов текста. (Просто убедитесь, что вы не вызываете более дорогие и более медленные части Stanford CoreNLP - синтаксический анализ и dcoref - которые не нужны для временных тегов.)
Heideltime - еще одна очень хорошая библиотека Java для временных тегов. Преимущество заключается в поддержке нескольких языков, тогда как SUTime в настоящее время поддерживает только английский. Недостатком его является то, что он настроен на использование TreeTagger в качестве тега части речи, что означает, что вам нужно либо иметь дело с использованием этого не-открытого компонента, не являющегося Java-компонентом, или вам нужно написать материал, чтобы настроить его на используйте другой POS-тегер. Я не знаком с Stemptag; Я не думаю, что есть какой-либо проект Apache для этого.