Quanteda, что означает переменная Types, возвращаемая сводкой (корпус)?
Я изучал пакет quanteda из R и просто не смог найти в документах, что означает переменная с именем Types, возвращаемая суммированием (immig_corp).
require(quanteda)
require(readtext)
Теперь я создаю корпус:
immig_corp <- corpus(data_char_ukimmig2010,
docvars = data.frame(party = names(data_char_ukimmig2010)))
Теперь я хотел бы показать некоторую информацию о корпусе, который я только что создал. Типы - это один из общих атрибутов, всегда заданных в сводке (корпус).
summary(immig_corp)
Этот бит возвращает мне следующее:
Corpus consisting of 9 documents:
Text Types Tokens Sentences party
BNP 1125 3280 88 BNP
Coalition 142 260 4 Coalition
Conservative 251 499 15 Conservative
Greens 322 679 21 Greens
Labour 298 683 29 Labour
LibDem 251 483 14 LibDem
PC 77 114 5 PC
SNP 88 134 4 SNP
UKIP 346 723 27 UKIP
1 ответ
Давайте просто сосредоточимся на immig_corp <- corpus(data_char_ukimmig2010)
, Это возвращает следующее:
Corpus consisting of 9 documents:
Text Types Tokens Sentences
BNP 1125 3280 88
Coalition 142 260 4
Conservative 251 499 15
Greens 322 679 21
Labour 298 683 29
LibDem 251 483 14
PC 77 114 5
SNP 88 134 4
UKIP 346 723 27
Сейчас Text
это имя документа. Sentences
количество предложений в документе Tokens
это количество токенов в тексте и Types
количество уникальных токенов в тексте Таким образом, для BNP существует 1125 уникальных токенов, 3280 токенов и 88 предложений.
Вы можете восстановить счет следующим образом:
# Sentences
nsentence(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
88 4 15 21 29 14 5 4 27
# Tokens
ntoken(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
3280 260 499 679 683 483 114 134 723
# Types
ntype(immig_corp)
BNP Coalition Conservative Greens Labour LibDem PC SNP UKIP
1125 142 251 322 298 251 77 88 346