NLTK его и ее помечены по-разному,
Я только начал экспериментировать с обработкой естественного языка. Мои первые несколько строк кода с NLTK дали непонятные результаты.
import nltk
exampleArray = ['The book is hers',
'The book is his']
for item in exampleArray:
tokenized = nltk.word_tokenize(item)
tagged = nltk.pos_tag(tokenized)
print(tagged)
Выход:
[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('hers', 'NNS')]
[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('his', 'PRP$')]
Почему "его" и "ее" помечены так по-разному?
1 ответ
Я не могу найти никаких документов о модели, но теггер, вероятно, был обучен тексту Wall Street Journal из Penn Treebank, который не известен своим гендерным балансом.
Обратите внимание, что у "его" тоже есть неправильный тег. Оба должны быть PRP. В дереве WSJ есть один случай его /PRP (против>2000 его /PRP$, некоторые из которых могут быть ошибками) и один из Hers/JJ (насколько я могу судить, ошибка тегирования). Тэггер с немного лучшей моделью (используя лучшие тренировочные данные) должен быть в состоянии правильно пометить "ее", но "его" останется хитрым.
Кроме того, "ее" достаточно часто помечают как JJ в субкорпорации Brown and Switchboard, так что я не совсем уверен, что происходит, хотя я думаю, что это ошибки. Стандартные рекомендации по маркировке PTB четко говорят, что это должен быть PRP, а быстрый поиск не обнаруживает никаких альтернативных рекомендаций.