Спровоцируйте тегер части речи NLTK, чтобы сообщить о собственном существительном множественного числа

Question

Спровоцируйте тегер части речи NLTK, чтобы сообщить о собственном существительном множественного числа

Давайте попробуем отреставрированный тегер части речи Python в nltk пакет.

import nltk
# You might also need to run nltk.download('maxent_treebank_pos_tagger') 
#  even after installing nltk

string = 'Buddy Billy went to the moon and came Back with several Vikings.'
nltk.pos_tag(nltk.word_tokenize(string))

Это дает мне

[("Приятель", "NNP"), ("Билли", "NNP"), ("ушел", "VBD"), ("до", "до"), ("the", "DT"), ('Moon', 'NN'), ('and', 'CC'), ('came', 'VBD'), ('Back', 'NNP'), ('with', 'IN'), ('Несколько', 'JJ'), ('Викинги', 'NNS'), ('.', '.')]

Вы можете интерпретировать коды здесь. Я немного разочарован тем, что "Назад" классифицируют как имя собственное (NNP), хотя путаница понятна. Я более расстроен тем, что "викинги" называются простыми именами во множественном числе (NNS) вместо имен собственных во множественном числе (NNPS). Может кто-нибудь придумать единственный пример краткого ввода, который приводит хотя бы к одному тегу NNPS?

1

python-2.7 nlp nltk part-of-speech

Источник

user2232265 10 июл '15 в 20:34

1 ответ

Решение

Другие вопросы по тегам python-2.7 nlp nltk part-of-speech

user610569 13 июл '15 в 20:51 2015-07-13 20:51 · Accepted Answer · 2015-07-13 20:51

Кажется, есть некоторые проблемы с тегами в коричневом корпусе NLTK, которые теги NNPS как NPS (Возможно, набор тегов NLTK представляет собой обновленные / устаревшие теги, которые отличаются от https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html).

Вот пример plural proper nouns:

>>> from nltk.corpus import brown
>>> for sent in brown.tagged_sents():
...     if any(pos for word, pos in sent if pos == 'NPS'):
...             print sent
...             break
... 
[(u'Georgia', u'NP'), (u'Republicans', u'NPS'), (u'are', u'BER'), (u'getting', u'VBG'), (u'strong', u'JJ'), (u'encouragement', u'NN'), (u'to', u'TO'), (u'enter', u'VB'), (u'a', u'AT'), (u'candidate', u'NN'), (u'in', u'IN'), (u'the', u'AT'), (u'1962', u'CD'), (u"governor's", u'NN$'), (u'race', u'NN'), (u',', u','), (u'a', u'AT'), (u'top', u'JJS'), (u'official', u'NN'), (u'said', u'VBD'), (u'Wednesday', u'NR'), (u'.', u'.')]

Но если вы пометите nltk.pos_tag, ты получишь NNPS:

>>> for sent in brown.tagged_sents():
...     if any(pos for word, pos in sent if pos == 'NPS'):
...             print " ".join([word for word, pos in sent])
...             break
... 
Georgia Republicans are getting strong encouragement to enter a candidate in the 1962 governor's race , a top official said Wednesday .
>>> from nltk import pos_tag
>>> pos_tag("Georgia Republicans are getting strong encouragement to enter a candidate in the 1962 governor's race , a top official said Wednesday .".split())
[('Georgia', 'NNP'), ('Republicans', 'NNPS'), ('are', 'VBP'), ('getting', 'VBG'), ('strong', 'JJ'), ('encouragement', 'NN'), ('to', 'TO'), ('enter', 'VB'), ('a', 'DT'), ('candidate', 'NN'), ('in', 'IN'), ('the', 'DT'), ('1962', 'CD'), ("governor's", 'NNS'), ('race', 'NN'), (',', ','), ('a', 'DT'), ('top', 'JJ'), ('official', 'NN'), ('said', 'VBD'), ('Wednesday', 'NNP'), ('.', '.')]