Почему я получаю несколько объектов как один
Я использую пользовательскую модель NER (на основе CRF) для тегирования NER. но проблема в том, что в тестовых данных встречаются несколько объектов, разделенных пунктуацией или каким-либо стоп-словом. это целое как одно целое.
например-
для "Индии, Китая" производят
(u'India', u'B-LOC'),(u',', u'I-LOC'),(u'china', u'I-LOC')
и для "Индии и Австралии" это производит
(u'india', u'B-LOC'),(u'and', u'I-LOC'),(u'australia', u'I-LOC')
Я не удалил никаких стоп-слов или знаков препинания из своего учебного набора данных, и они помечены как "О". Но почему я получаю эти знаки препинания и стоп-слова, которые встречаются между двумя объектами как часть одного объекта?
вот мой файл свойств и набор данных, которые я использовал в моей модели обучения
Файл собственности (ner.prop)
trainFile=Clean_Data.tsv
serializeTO=ner-model_cleanGazette_full.ser.gz
map = word=0,answer=1,tag=2
useClassFeature=true
useWord=true
useNGrams=true
noMidNGrams=true
qnSize=10
entitySubclassification=IOB2
retainEntitySubclassification=true
maxNGramLeng=6
usePrev=true
useNext=true
useSequences=true
usePrevSequences=true
useTypeSeqs=true
useTypeSeqs2=true
useTypeySequences=true
wordShape=chris2useLC
useDisjunctive=true
useGazettes=true
gazette=gazetta.txt
sloppyGazette=true
Набор данных Kaggle используется(Clean_Data.tsv)
**Word ner pos**
Thousands O NNS
of O IN
demonstrators O NNS
have O VBP
marched O VBN
through O IN
London B-LOC NNP
to O TO
protest O VB
Что еще я могу добавить или удалить, чтобы преодолеть эту проблему?