Хорошо ли использовать временные теги Стэнфорда для больших данных?

Question

Хорошо ли использовать временные теги Стэнфорда для больших данных?

Я изучаю Stanford Temporal Tagger для моего проекта по извлечению сущности даты из текста. Демо из http://nlp.stanford.edu:8080/sutime/process выглядит многообещающим. Я хотел бы понять, является ли эта библиотека зрелой. А также кто-то помог мне понять, как эта библиотека работает с большими данными. Было бы также полезно, если бы вы могли рассказать мне о других библиотеках временных тегов на основе Java, особенно для больших данных. Есть ли проект apache, который делает временные теги?

Я нашел некоторые из библиотек, как

https://code.google.com/p/heideltime/

https://code.google.com/p/stemptag/

2

nlp stanford-nlp named-entity-recognition information-extraction

Источник

user2053319 03 сен '13 в 13:20

1 ответ

Решение

Другие вопросы по тегам nlp stanford-nlp named-entity-recognition information-extraction

user235019 03 сен '13 в 21:12 2013-09-03 21:12 · Accepted Answer · 2013-09-03 21:12

Да, библиотека SUTime является зрелой и достаточно точной, и на ней было написано более десятков миллионов слов текста. (Просто убедитесь, что вы не вызываете более дорогие и более медленные части Stanford CoreNLP - синтаксический анализ и dcoref - которые не нужны для временных тегов.)

Heideltime - еще одна очень хорошая библиотека Java для временных тегов. Преимущество заключается в поддержке нескольких языков, тогда как SUTime в настоящее время поддерживает только английский. Недостатком его является то, что он настроен на использование TreeTagger в качестве тега части речи, что означает, что вам нужно либо иметь дело с использованием этого не-открытого компонента, не являющегося Java-компонентом, или вам нужно написать материал, чтобы настроить его на используйте другой POS-тегер. Я не знаком с Stemptag; Я не думаю, что есть какой-либо проект Apache для этого.