Пометка ссылок / цитат в тексте
Мне нужно найти способ помечать ссылки на публикации в тексте. Мы делали это с помощью регулярных выражений, но они не будут работать с этими новыми шаблонами.
Некоторые примеры (язык немецкий):
Herzog (август 2012), Einkommensteuerskriptum Band 1, S 8
Ачатц / Бибер в Ачатце / Кирхмайр, Körperschaftsteuergesetz (2011)
Генрих в Quantschnigg / Renner / Schellmann / Stöger, Die Körperschaftsteuer (2013) § 7 Rz 32
Raab / Renner in Quantschnigg / Renner / Schellmann / Stöger / Vock, Die Körperschaftsteuer, 24. Lfg., § 8 Tz 292,293
Quantschnigg / Renner / Schellmann / Stöger / Vock (Hrsg), KStG23 (2013) § 13 Rz 67
Так что в основном это начинается с имен авторов и названия публикации, но затем становится довольно разнообразным. Это может выглядеть не так плохо в примерах, но я мог бы дать больше, которые снова выглядят по-другому.
Поэтому я подумал, что это может быть задачей для машинного обучения. Однако, имея очень мало опыта в этой области, мне трудно найти правильную технику.
Я нашел POS-теги, но, похоже, это не тот путь, по которому можно сюда добраться. Я также наткнулся на CRF, но на нем мало материала, который бы позволил начинающему, как я, начать.
Я сделал некоторую классификацию и регрессию в sklearn, но это все.
Кто-нибудь может указать мне правильное направление?