Как извлечь информацию о корпоративных облигациях с помощью машинного обучения

Question

Как извлечь информацию о корпоративных облигациях с помощью машинного обучения

Я работаю над проектом, в котором мне нужно извлечь информацию о корпоративных облигациях из неструктурированных электронных писем. Проведя много исследований, я обнаружил, что машинное обучение может быть использовано для извлечения информации. Я пробовал Opennlp NER (распознаватель именованных сущностей), но я не уверен, выбрал ли я правильную библиотеку для этой проблемы или нет, потому что я получаю результаты, но не на должном уровне.

Может ли кто-нибудь предложить мне какую-нибудь библиотеку или алгоритмы, означающие, как я могу анализировать и извлекать данные из нее. Я планирую исследовать наивный байесовский или N-граммовый или векторный метод поддержки, но не уверен, поможет мне это или нет. Пожалуйста, предложите.

Примеры как:

[/] Trading 10mm ABC 2.5 19 05/06 mkt can use 50mm ---> здесь я хочу извлечь "ABC 2.5 19"

Пример 2:

XYZ 6.5 15 10-2B 106-107 B3 AAA- 1.646MM 2x2 ---> здесь я хочу извлечь "XYZ 6.5 15"

1

parsing machine-learning nlp opennlp information-extraction

Источник

user296418 10 сен '14 в 06:43

1 ответ

Другие вопросы по тегам parsing machine-learning nlp opennlp information-extraction

user4007818 10 сен '14 в 12:49 2014-09-10 12:49 · Answer 1 · 2014-09-10 12:49

В Perl вы можете использовать Marpa::R2 - общий BNF-парсер.

Эта суть извлекает информацию из ваших примеров.

Надеюсь это поможет.

2

Источник

user4007818 10 сен '14 в 12:49