Проблемы, касающиеся обучения модели Maltparser
Я пытаюсь обучить модель Maltparser для Bangla. Я комментировал небольшой корпус в формате Conllu. Но это дает мне ошибку нулевого указателя. Поэтому я попробовал это с каким-то древовидным банком, собранным с сайта UD. И это работает с этими наборами данных. Мои вопросы
Могу ли я обучить модель Maltparser без XPOSTAG, я аннотировал поле UPOSTAG, а поле XPOSTAG - просто копии UPOSTAG. Нужно ли комментировать XPOSTAG? Это единственная разница между моим treebank и UD treebank
Как это для целей оценки я могу автоматически конвертировать UPOSTAG в XPOSTAG?
ссылка: http://universaldependencies.org/format.html
Для лучшего понимания я привожу пример как своего банка, так и банка UD
Мой банк примеров (есть ошибки и некоторые пустые поля)(язык - бангла)
1 Ajake _ NOUN NOUN _ 5 iobj _ _
2 rAtera _ NOUN NOUN _ 1 nmod _ _
3 AbahAoYA _ NOUN NOUN _ 5 nsubj _ _
4 kemana _ ADV ADV _ 5 advmod _ _
5 hate _ VERB VERB _ 0 root _ _
6 pAre _ AUX AUX _ 5 aux _ SpaceAfter=No
7 ? _ _ _ _ _ _ _ _
1 Ajake _ NOUN NOUN _ 5 iobj _ _
2 bikAlera _ NOUN NOUN _ 1 nmod _ _
3 paribesha _ NOUN NOUN _ 5 nsubj _ _
4 kemana _ ADV ADV _ 5 advmod _ _
5 hate _ VERB VERB _ 0 root _ _
6 pAre _ AUX AUX _ 5 aux _ SpaceAfter=No
7 ? _ _ _ _ _ _ _ _
UD Bank
1 From _ ADP IN _ 3 case _ _
2 the _ DET DT _ 3 det _ _
3 AP _ PROPN NNP _ 4 nmod _ _
4 comes _ VERB VBZ _ 0 root _ _
5 this _ DET DT _ 6 det _ _
6 story _ NOUN NN _ 4 nsubj _ _
7 : _ PUNCT : _ 4 punct _ _
1 President _ PROPN NNP _ 2 compound _ _
2 Bush _ PROPN NNP _ 5 nsubj _ _
3 on _ ADP IN _ 4 case _ _
4 Tuesday _ PROPN NNP _ 5 nmod _ _
5 nominated _ VERB VBD _ 0 root _ _
6 two _ NUM CD _ 7 nummod _ _
7 individuals _ NOUN NNS _ 5 dobj _ _
8 to _ PART TO _ 9 mark _ _
9 replace _ VERB VB _ 5 advcl _ _
10 retiring _ VERB VBG _ 11 amod _ _
11 jurists _ NOUN NNS _ 9 dobj _ _
12 on _ ADP IN _ 14 case _ _
13 federal _ ADJ JJ _ 14 amod _ _
14 courts _ NOUN NNS _ 11 nmod _ _
15 in _ ADP IN _ 18 case _ _
16 the _ DET DT _ 18 det _ _
17 Washington _ PROPN NNP _ 18 compound _ _
18 area _ NOUN NN _ 14 nmod _ _
19 . _ PUNCT . _ 5 punct _ _
1 ответ
Хорошо, я нашел решение для первой проблемы. Вам не нужен XPOSTAG, дублирование UPOSTAG позволит тренироваться. моя проблема заключалась в том, что не было ни слова, ни знака препинания "?" в вопросе, можно оставить пустым. он должен быть помечен и должен быть зависимым от корня. Это решило мои проблемы.
В случае второго вопроса ответ неоднозначен. Между UPOSTAG и XPOSTAG нет действительного отношения один к одному, поскольку оно зависит от языка. Любая таблица, использующая теги Penn Tree Bank, будет работать. Но для точности понадобится постобработка.