Как правильно моделировать объекты в crfpp
Хорошо, ниже находится файл шаблона, если я отношусь к каждому элементу точно так же, как к первому элементу (слову), все работает нормально, но когда я пытаюсь обработать только элемент формы текущего слова, модель пытается сделать все возможное, чтобы пометить каждая вещь как за...
Я не могу найти подробных описаний в шаблоне crfpp, но думаю, что мог ошибиться.
Для функции заглавных букв, это нормально, если я только хочу смоделировать информацию о текущем слове, но игнорировать информацию о заглавных буквах предыдущего или следующих слов?
# Unigram
# word
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-1,0]/%x[0,0]
U06:%x[0,0]/%x[1,0]
U07:%x[-2,0]/%x[-1,0]/%x[0,0]/%x[1,0]/%x[0,0]
# is capitalized
U08:%x[0,1] # if current word is capitalized
# is all uppercased
U09:%x[0,2]
# is alphanumeric
U10:%x[0,3]
# lowercased prefix
U11:%x[0,4]
# lowercased suffix
U12:%x[0,5]
# add for entity like iphone 6
U15:%x[0,6] # word type
U16:%x[0,6]/%x[-1,1]
# to seperate different language types
U17:%x[0,6]/%x[1,6]
U18:%x[-1,6]/%x[0,6]
# words eclosed by bracket is likely to be an entity
U19:%x[0,7]
U20:%x[-1,7]
U21:%x[1,7]
U22:%x[0,7]/%x[1,7]
U23:%x[-1,7]/%x[0,7]