Почему я получаю несколько объектов как один

Я использую пользовательскую модель NER (на основе CRF) для тегирования NER. но проблема в том, что в тестовых данных встречаются несколько объектов, разделенных пунктуацией или каким-либо стоп-словом. это целое как одно целое.

например-
для "Индии, Китая" производят
(u'India', u'B-LOC'),(u',', u'I-LOC'),(u'china', u'I-LOC')
и для "Индии и Австралии" это производит
(u'india', u'B-LOC'),(u'and', u'I-LOC'),(u'australia', u'I-LOC')

Я не удалил никаких стоп-слов или знаков препинания из своего учебного набора данных, и они помечены как "О". Но почему я получаю эти знаки препинания и стоп-слова, которые встречаются между двумя объектами как часть одного объекта?

вот мой файл свойств и набор данных, которые я использовал в моей модели обучения

Файл собственности (ner.prop)

 trainFile=Clean_Data.tsv
 serializeTO=ner-model_cleanGazette_full.ser.gz
 map = word=0,answer=1,tag=2
 useClassFeature=true
 useWord=true
 useNGrams=true
 noMidNGrams=true
 qnSize=10
 entitySubclassification=IOB2
 retainEntitySubclassification=true
 maxNGramLeng=6
 usePrev=true
 useNext=true
 useSequences=true
 usePrevSequences=true
 useTypeSeqs=true
 useTypeSeqs2=true
 useTypeySequences=true
 wordShape=chris2useLC
 useDisjunctive=true
 useGazettes=true
 gazette=gazetta.txt
 sloppyGazette=true  

Набор данных Kaggle используется(Clean_Data.tsv)

**Word    ner     pos**
Thousands   O   NNS
of  O   IN
demonstrators   O   NNS
have    O   VBP
marched O   VBN
through O   IN
London  B-LOC   NNP
to  O   TO
protest O   VB   

Что еще я могу добавить или удалить, чтобы преодолеть эту проблему?

0 ответов

Другие вопросы по тегам