Именованный объект распознавания признака для идентификации текста "следующий понедельник" как дата?

Я новичок в текстовом майнинге и НЛП. Я пытаюсь использовать распознавание именованных сущностей (NER) (Stanford Named Entity Tagger) для извлечения дат из заданного текста. Я использую онлайн-демонстрацию, предоставленную в Stanford NLP http://nlp.stanford.edu:8080/ner/process и GATE ANNIE http://services.gate.ac.uk/annie/

Эта демонстрация не может распознать тексты, такие как "последнее воскресенье", "следующий понедельник", "конец месяца", "до вечера воскресенья". Воскресенье или понедельник не помогут определить дату. Есть ли возможность извлечь фактический текст, упомянутый в приведенных примерах текстов?

Пример текста:

Побалуйте себя Puma, так как он предлагает скидку 50%. Спешите, предложение действительно до этого воскресенья. Счастливые покупки.

Извлеченная дата: 25-08-2013 (учитывая, что сегодня 19-08-2013. Формат даты может быть любым)

Любая библиотека предоставляет такую ​​функцию распознавания даты, или можно создать собственную модель для распознавания даты, как указано в тексте примера?

2 ответа

Решение

SUTime в Stanford CoreNLP может делать временное признание. На этой странице приведен пример кода, и здесь можно ознакомиться с онлайн-демонстрацией.

Смежный вопрос: хорошо ли использовать временную метку Стэнфорда для больших данных?

Tagger_DateNormalizer Плагин в GATE может сделать это, и он нормализует выражения относительной даты по отношению к сегодняшней дате по умолчанию. Вы можете изменить это с помощью sourceOfDocumentDate параметр для получения контрольной даты из объекта документа или из аннотации, созданной предыдущим шагом в конвейере, вместо использования текущей даты (например, если вы обрабатываете новостные статьи, вы, вероятно, захотите нормализовать дату публикации, а не дата запуска вашего трубопровода).

Хотя плагин называется "нормализатором" даты, на самом деле это "тегер и нормализатор" - он находит выражения даты в тексте и аннотирует их нормализованным значением, а не принимает список ранее существовавших Date аннотации и нормализация тех.

Другие вопросы по тегам