Как преобразовать CoNLL2011 в CoNLL2003

Я хочу обучить модель NER с помощью AllenNLP, и мне кажется, что мне нужен либо набор данных CoNLL2003, либо необходимо изменить считыватель. У меня есть набор данных в формате CoNLL2011. Вот часть этого:

#begin document T990507.2
T990507.2   1   1   Veruntreute VVFIN   (VROOT:--(SIMPX:--(LK:-(VXFIN:HD*)) veruntreuen -   -   -   *   -   -
T990507.2   1   2   die ART (MF:-(NX=ORG:ON*    die -   -   -   *   -   (0
T990507.2   1   3   AWO NN  *)  AWO -   -   -   (ORG)   -   0)
T990507.2   1   4   Spendengeld NN  (NX:OA*)))  Spendengeld -   -   -   *   -   -
T990507.2   1   5   ?   $.  *)  ?   -   -   -   *   -   -

Для CoNLL2003 мне нужен такой формат, где (1) - это слово, (2) - это тег POS, (3) - синтаксический тег чанка, а (4) - тег NER:

   U.N.         NNP  I-NP  I-ORG 
   official     NN   I-NP  O 
   Ekeus        NNP  I-NP  I-PER 
   heads        VBZ  I-VP  O 
   for          IN   I-PP  O 
   Baghdad      NNP  I-NP  I-LOC 
   .            .    O     O 

Проблема в том, что я не знаю, как извлечь синтаксический тег чанка. Остальные не проблема.

У меня также есть форматы данных chunks, conll_2006, conll_2010, conll_u, Penn_tree_bank и какой-то формат XML, название которого я не знаю. Они все одинакового корпуса, но по-разному отформатированы.

Возможно ли извлечь необходимую информацию из грамматического дерева в столбце 6? Я относительно новичок в НЛП и лингвистике, поэтому мне сложно судить. Я мог бы также переписать программу чтения наборов данных 2003 года и пропустить синтаксический тег чанка, но я боюсь, что это слишком сильно влияет на результат. Я имею в виду, что должна быть причина, по которой задача NER требовала этих тегов.

Любая помощь, подсказка или что-то очень ценится.

0 ответов

Другие вопросы по тегам