Как извлечь информацию о корпоративных облигациях с помощью машинного обучения

Я работаю над проектом, в котором мне нужно извлечь информацию о корпоративных облигациях из неструктурированных электронных писем. Проведя много исследований, я обнаружил, что машинное обучение может быть использовано для извлечения информации. Я пробовал Opennlp NER (распознаватель именованных сущностей), но я не уверен, выбрал ли я правильную библиотеку для этой проблемы или нет, потому что я получаю результаты, но не на должном уровне.

Может ли кто-нибудь предложить мне какую-нибудь библиотеку или алгоритмы, означающие, как я могу анализировать и извлекать данные из нее. Я планирую исследовать наивный байесовский или N-граммовый или векторный метод поддержки, но не уверен, поможет мне это или нет. Пожалуйста, предложите.

Примеры как:

[/] Trading 10mm ABC 2.5 19 05/06 mkt can use 50mm ---> здесь я хочу извлечь "ABC 2.5 19"

Пример 2:

XYZ 6.5 15 10-2B 106-107 B3 AAA- 1.646MM 2x2 ---> здесь я хочу извлечь "XYZ 6.5 15"

1 ответ

В Perl вы можете использовать Marpa::R2 - общий BNF-парсер.

Эта суть извлекает информацию из ваших примеров.

Надеюсь это поможет.

Другие вопросы по тегам