Как извлечь информацию о корпоративных облигациях с помощью машинного обучения
Я работаю над проектом, в котором мне нужно извлечь информацию о корпоративных облигациях из неструктурированных электронных писем. Проведя много исследований, я обнаружил, что машинное обучение может быть использовано для извлечения информации. Я пробовал Opennlp NER (распознаватель именованных сущностей), но я не уверен, выбрал ли я правильную библиотеку для этой проблемы или нет, потому что я получаю результаты, но не на должном уровне.
Может ли кто-нибудь предложить мне какую-нибудь библиотеку или алгоритмы, означающие, как я могу анализировать и извлекать данные из нее. Я планирую исследовать наивный байесовский или N-граммовый или векторный метод поддержки, но не уверен, поможет мне это или нет. Пожалуйста, предложите.
Примеры как:
[/] Trading 10mm ABC 2.5 19 05/06 mkt can use 50mm
---> здесь я хочу извлечь "ABC 2.5 19"
Пример 2:
XYZ 6.5 15 10-2B 106-107 B3 AAA- 1.646MM 2x2
---> здесь я хочу извлечь "XYZ 6.5 15"