Хорошо ли использовать временные теги Стэнфорда для больших данных?

Я изучаю Stanford Temporal Tagger для моего проекта по извлечению сущности даты из текста. Демо из http://nlp.stanford.edu:8080/sutime/process выглядит многообещающим. Я хотел бы понять, является ли эта библиотека зрелой. А также кто-то помог мне понять, как эта библиотека работает с большими данными. Было бы также полезно, если бы вы могли рассказать мне о других библиотеках временных тегов на основе Java, особенно для больших данных. Есть ли проект apache, который делает временные теги?

Я нашел некоторые из библиотек, как

https://code.google.com/p/heideltime/

https://code.google.com/p/stemptag/

1 ответ

Решение

Да, библиотека SUTime является зрелой и достаточно точной, и на ней было написано более десятков миллионов слов текста. (Просто убедитесь, что вы не вызываете более дорогие и более медленные части Stanford CoreNLP - синтаксический анализ и dcoref - которые не нужны для временных тегов.)

Heideltime - еще одна очень хорошая библиотека Java для временных тегов. Преимущество заключается в поддержке нескольких языков, тогда как SUTime в настоящее время поддерживает только английский. Недостатком его является то, что он настроен на использование TreeTagger в качестве тега части речи, что означает, что вам нужно либо иметь дело с использованием этого не-открытого компонента, не являющегося Java-компонентом, или вам нужно написать материал, чтобы настроить его на используйте другой POS-тегер. Я не знаком с Stemptag; Я не думаю, что есть какой-либо проект Apache для этого.

Другие вопросы по тегам