NLTK его и ее помечены по-разному,

Question

NLTK его и ее помечены по-разному,

Я только начал экспериментировать с обработкой естественного языка. Мои первые несколько строк кода с NLTK дали непонятные результаты.

import nltk
exampleArray = ['The book is hers',
               'The book is his']
for item in exampleArray:
    tokenized = nltk.word_tokenize(item)
    tagged = nltk.pos_tag(tokenized)
    print(tagged)

Выход:

[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('hers', 'NNS')]
[('The', 'DT'), ('book', 'NN'), ('is', 'VBZ'), ('his', 'PRP$')]

Почему "его" и "ее" помечены так по-разному?

2

nlp nltk pos-tagging

Источник

user11120877 26 фев '19 в 17:50

1 ответ

Другие вопросы по тегам nlp nltk pos-tagging

user461847 27 фев '19 в 21:45 2019-02-27 21:45 · Answer 1 · 2019-02-27 21:45

Я не могу найти никаких документов о модели, но теггер, вероятно, был обучен тексту Wall Street Journal из Penn Treebank, который не известен своим гендерным балансом.

Обратите внимание, что у "его" тоже есть неправильный тег. Оба должны быть PRP. В дереве WSJ есть один случай его /PRP (против>2000 его /PRP$, некоторые из которых могут быть ошибками) и один из Hers/JJ (насколько я могу судить, ошибка тегирования). Тэггер с немного лучшей моделью (используя лучшие тренировочные данные) должен быть в состоянии правильно пометить "ее", но "его" останется хитрым.

Кроме того, "ее" достаточно часто помечают как JJ в субкорпорации Brown and Switchboard, так что я не совсем уверен, что происходит, хотя я думаю, что это ошибки. Стандартные рекомендации по маркировке PTB четко говорят, что это должен быть PRP, а быстрый поиск не обнаруживает никаких альтернативных рекомендаций.