Quanteda, что означает переменная Types, возвращаемая сводкой (корпус)?

Я изучал пакет quanteda из R и просто не смог найти в документах, что означает переменная с именем Types, возвращаемая суммированием (immig_corp).

require(quanteda)
require(readtext)

Теперь я создаю корпус:

immig_corp <- corpus(data_char_ukimmig2010, 
                 docvars = data.frame(party = names(data_char_ukimmig2010)))

Теперь я хотел бы показать некоторую информацию о корпусе, который я только что создал. Типы - это один из общих атрибутов, всегда заданных в сводке (корпус).

summary(immig_corp)

Этот бит возвращает мне следующее:

Corpus consisting of 9 documents:

         Text Types Tokens Sentences        party
         BNP  1125   3280        88          BNP
   Coalition   142    260         4    Coalition
Conservative   251    499        15 Conservative
      Greens   322    679        21       Greens
      Labour   298    683        29       Labour
      LibDem   251    483        14       LibDem
          PC    77    114         5           PC
         SNP    88    134         4          SNP
        UKIP   346    723        27         UKIP

1 ответ

Решение

Давайте просто сосредоточимся на immig_corp <- corpus(data_char_ukimmig2010), Это возвращает следующее:

Corpus consisting of 9 documents:

         Text Types Tokens Sentences
          BNP  1125   3280        88
    Coalition   142    260         4
 Conservative   251    499        15
       Greens   322    679        21
       Labour   298    683        29
       LibDem   251    483        14
           PC    77    114         5
          SNP    88    134         4
         UKIP   346    723        27

Сейчас Text это имя документа. Sentences количество предложений в документе Tokens это количество токенов в тексте и Types количество уникальных токенов в тексте Таким образом, для BNP существует 1125 уникальных токенов, 3280 токенов и 88 предложений.

Вы можете восстановить счет следующим образом:

# Sentences
nsentence(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
          88            4           15           21           29           14            5            4           27 

# Tokens
ntoken(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
        3280          260          499          679          683          483          114          134          723 

# Types
ntype(immig_corp)
         BNP    Coalition Conservative       Greens       Labour       LibDem           PC          SNP         UKIP 
        1125          142          251          322          298          251           77           88          346 
Другие вопросы по тегам