Пометка ссылок / цитат в тексте

Мне нужно найти способ помечать ссылки на публикации в тексте. Мы делали это с помощью регулярных выражений, но они не будут работать с этими новыми шаблонами.

Некоторые примеры (язык немецкий):

Herzog (август 2012), Einkommensteuerskriptum Band 1, S 8

Ачатц / Бибер в Ачатце / Кирхмайр, Körperschaftsteuergesetz (2011)

Генрих в Quantschnigg / Renner / Schellmann / Stöger, Die Körperschaftsteuer (2013) § 7 Rz 32

Raab / Renner in Quantschnigg / Renner / Schellmann / Stöger / Vock, Die Körperschaftsteuer, 24. Lfg., § 8 Tz 292,293

Quantschnigg / Renner / Schellmann / Stöger / Vock (Hrsg), KStG23 (2013) § 13 Rz 67

Так что в основном это начинается с имен авторов и названия публикации, но затем становится довольно разнообразным. Это может выглядеть не так плохо в примерах, но я мог бы дать больше, которые снова выглядят по-другому.

Поэтому я подумал, что это может быть задачей для машинного обучения. Однако, имея очень мало опыта в этой области, мне трудно найти правильную технику.

Я нашел POS-теги, но, похоже, это не тот путь, по которому можно сюда добраться. Я также наткнулся на CRF, но на нем мало материала, который бы позволил начинающему, как я, начать.

Я сделал некоторую классификацию и регрессию в sklearn, но это все.

Кто-нибудь может указать мне правильное направление?

0 ответов

Другие вопросы по тегам