Проблемы, касающиеся обучения модели Maltparser

Я пытаюсь обучить модель Maltparser для Bangla. Я комментировал небольшой корпус в формате Conllu. Но это дает мне ошибку нулевого указателя. Поэтому я попробовал это с каким-то древовидным банком, собранным с сайта UD. И это работает с этими наборами данных. Мои вопросы

  1. Могу ли я обучить модель Maltparser без XPOSTAG, я аннотировал поле UPOSTAG, а поле XPOSTAG - просто копии UPOSTAG. Нужно ли комментировать XPOSTAG? Это единственная разница между моим treebank и UD treebank

  2. Как это для целей оценки я могу автоматически конвертировать UPOSTAG в XPOSTAG?

ссылка: http://universaldependencies.org/format.html

Для лучшего понимания я привожу пример как своего банка, так и банка UD

Мой банк примеров (есть ошибки и некоторые пустые поля)(язык - бангла)

1   Ajake   _   NOUN    NOUN    _   5   iobj    _   _
2   rAtera  _   NOUN    NOUN    _   1   nmod    _   _
3   AbahAoYA    _   NOUN    NOUN    _   5   nsubj   _   _
4   kemana  _   ADV ADV _   5   advmod  _   _
5   hate    _   VERB    VERB    _   0   root    _   _
6   pAre    _   AUX AUX _   5   aux _   SpaceAfter=No
7   ?   _   _   _   _   _   _   _   _

1   Ajake   _   NOUN    NOUN    _   5   iobj    _   _
2   bikAlera    _   NOUN    NOUN    _   1   nmod    _   _
3   paribesha   _   NOUN    NOUN    _   5   nsubj   _   _
4   kemana  _   ADV ADV _   5   advmod  _   _
5   hate    _   VERB    VERB    _   0   root    _   _
6   pAre    _   AUX AUX _   5   aux _   SpaceAfter=No
7   ?   _   _   _   _   _   _   _   _

UD Bank

1   From    _   ADP IN  _   3   case    _   _
2   the _   DET DT  _   3   det _   _
3   AP  _   PROPN   NNP _   4   nmod    _   _
4   comes   _   VERB    VBZ _   0   root    _   _
5   this    _   DET DT  _   6   det _   _
6   story   _   NOUN    NN  _   4   nsubj   _   _
7   :   _   PUNCT   :   _   4   punct   _   _

1   President   _   PROPN   NNP _   2   compound    _   _
2   Bush    _   PROPN   NNP _   5   nsubj   _   _
3   on  _   ADP IN  _   4   case    _   _
4   Tuesday _   PROPN   NNP _   5   nmod    _   _
5   nominated   _   VERB    VBD _   0   root    _   _
6   two _   NUM CD  _   7   nummod  _   _
7   individuals _   NOUN    NNS _   5   dobj    _   _
8   to  _   PART    TO  _   9   mark    _   _
9   replace _   VERB    VB  _   5   advcl   _   _
10  retiring    _   VERB    VBG _   11  amod    _   _
11  jurists _   NOUN    NNS _   9   dobj    _   _
12  on  _   ADP IN  _   14  case    _   _
13  federal _   ADJ JJ  _   14  amod    _   _
14  courts  _   NOUN    NNS _   11  nmod    _   _
15  in  _   ADP IN  _   18  case    _   _
16  the _   DET DT  _   18  det _   _
17  Washington  _   PROPN   NNP _   18  compound    _   _
18  area    _   NOUN    NN  _   14  nmod    _   _
19  .   _   PUNCT   .   _   5   punct   _   _

1 ответ

Решение

Хорошо, я нашел решение для первой проблемы. Вам не нужен XPOSTAG, дублирование UPOSTAG позволит тренироваться. моя проблема заключалась в том, что не было ни слова, ни знака препинания "?" в вопросе, можно оставить пустым. он должен быть помечен и должен быть зависимым от корня. Это решило мои проблемы.

В случае второго вопроса ответ неоднозначен. Между UPOSTAG и XPOSTAG нет действительного отношения один к одному, поскольку оно зависит от языка. Любая таблица, использующая теги Penn Tree Bank, будет работать. Но для точности понадобится постобработка.

Другие вопросы по тегам