NLTK его и ее помечены по-разному,

Я только начал экспериментировать с обработкой естественного языка. Мои первые несколько строк кода с NLTK дали непонятные результаты.

import nltk
exampleArray = ['The book is hers',
               'The book is his']
for item in exampleArray:
    tokenized = nltk.word_tokenize(item)
    tagged = nltk.pos_tag(tokenized)
    print(tagged)

Выход:

[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('hers', 'NNS')]
[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('his', 'PRP$')]

Почему "его" и "ее" помечены так по-разному?

1 ответ

Я не могу найти никаких документов о модели, но теггер, вероятно, был обучен тексту Wall Street Journal из Penn Treebank, который не известен своим гендерным балансом.

Обратите внимание, что у "его" тоже есть неправильный тег. Оба должны быть PRP. В дереве WSJ есть один случай его /PRP (против>2000 его /PRP$, некоторые из которых могут быть ошибками) и один из Hers/JJ (насколько я могу судить, ошибка тегирования). Тэггер с немного лучшей моделью (используя лучшие тренировочные данные) должен быть в состоянии правильно пометить "ее", но "его" останется хитрым.

Кроме того, "ее" достаточно часто помечают как JJ в субкорпорации Brown and Switchboard, так что я не совсем уверен, что происходит, хотя я думаю, что это ошибки. Стандартные рекомендации по маркировке PTB четко говорят, что это должен быть PRP, а быстрый поиск не обнаруживает никаких альтернативных рекомендаций.

Другие вопросы по тегам