Как преобразовать CoNLL2011 в CoNLL2003
Я хочу обучить модель NER с помощью AllenNLP, и мне кажется, что мне нужен либо набор данных CoNLL2003, либо необходимо изменить считыватель. У меня есть набор данных в формате CoNLL2011. Вот часть этого:
#begin document T990507.2
T990507.2 1 1 Veruntreute VVFIN (VROOT:--(SIMPX:--(LK:-(VXFIN:HD*)) veruntreuen - - - * - -
T990507.2 1 2 die ART (MF:-(NX=ORG:ON* die - - - * - (0
T990507.2 1 3 AWO NN *) AWO - - - (ORG) - 0)
T990507.2 1 4 Spendengeld NN (NX:OA*))) Spendengeld - - - * - -
T990507.2 1 5 ? $. *) ? - - - * - -
Для CoNLL2003 мне нужен такой формат, где (1) - это слово, (2) - это тег POS, (3) - синтаксический тег чанка, а (4) - тег NER:
U.N. NNP I-NP I-ORG
official NN I-NP O
Ekeus NNP I-NP I-PER
heads VBZ I-VP O
for IN I-PP O
Baghdad NNP I-NP I-LOC
. . O O
Проблема в том, что я не знаю, как извлечь синтаксический тег чанка. Остальные не проблема.
У меня также есть форматы данных chunks
, conll_2006
, conll_2010
, conll_u
, Penn_tree_bank
и какой-то формат XML, название которого я не знаю. Они все одинакового корпуса, но по-разному отформатированы.
Возможно ли извлечь необходимую информацию из грамматического дерева в столбце 6? Я относительно новичок в НЛП и лингвистике, поэтому мне сложно судить. Я мог бы также переписать программу чтения наборов данных 2003 года и пропустить синтаксический тег чанка, но я боюсь, что это слишком сильно влияет на результат. Я имею в виду, что должна быть причина, по которой задача NER требовала этих тегов.
Любая помощь, подсказка или что-то очень ценится.