Описание тега quanteda
Пакет quanteda предоставляет быстрый и гибкий набор инструментов для управления, обработки и количественного анализа текстовых данных в R.
1
ответ
Квантеда, сколько масштаб может обрабатывать texttat_simil
Я использую Quanteda в течение последних нескольких месяцев и действительно наслаждаюсь использованием пакета. У меня один вопрос: сколько строк dfm может обработать функция texttat_simil до того, как время создания матрицы подобия станет слишком дл…
13 ноя '18 в 12:00
1
ответ
Quanteda: матрица возможностей документа с предопределенным набором функций
Я использую Quanteda для создания двух матриц функций документа: library(quanteda) DFM1 <- dfm("this is a rock") # features # docs this is a rock # text1 1 1 1 1 DFM2 <- dfm("this is music") # features # docs this is music # text1 1 1 1 Тем не…
05 окт '17 в 21:33
1
ответ
Как отфильтровать dfm по документам с хотя бы n терминами в кванте?
Я анализирую текстовые данные с круглого стола и хотел бы знать, можно ли отфильтровать только те документы, у которых больше, чем "n" терминов? В моем корпусе есть документы, которые содержат только 1 слово, например: "Спасибо", "Иногда", "Действит…
26 янв '19 в 17:29
1
ответ
Стебель с квантедой
Я использую следующую команду, чтобы сделать stemming с помощью Quanteda myDfm <- dfm(tokens_remove(tokens(df2, remove_punct = TRUE, stem = TRUE, remove_numbers = TRUE, remove_symbols = TRUE), stopwords(source = "smart")), ngrams = c(1,2)) Однако…
03 фев '19 в 22:46
1
ответ
Создать DFM шаг за шагом с Quanteda
Я хочу проанализировать большой (n=500 000) корпус документов. я использую quanteda в ожидании, что будет быстрее, чем tm_map() от tm, Я хочу продолжить шаг за шагом, а не использовать автоматический способ с dfm(), У меня есть причины для этого: в …
13 авг '16 в 09:54
1
ответ
R: Quanteda: могу ли я использовать texttat_keyness на двух отдельных корпусах?
Использование "texttat_keyness" следующее: textstat_keyness(x, target = 1L, measure = c("chi2", "exact", "lr", "pmi"), sort = TRUE, correction = c("default", "yates", "williams", "none")) "target" - это "индекс документа (числовой, символьный или ло…
05 апр '18 в 08:30
1
ответ
Создание слова из букв
Я пытаюсь создать DFM букв из строк. Я сталкиваюсь с проблемами, когда dfm не может выбрать, может создать функции для пунктуации, такие как "/" "-" "." или же '. require(quanteda) dict = c('a','b','c','d','e','f','/',".",'-',"'") dict <- quanted…
20 ноя '16 в 02:10
0
ответов
"MV" не работает масштабирование
Я пытаюсь использовать шкалы слов в корпусе, но когда я использую масштабирование "mv", код не может установить в качестве справочных текстов те, которые я выбрал. Кроме того, несмотря на то, что я устанавливаю -1 и 1 в качестве опорных значений, пр…
27 фев '18 в 15:47
1
ответ
Quanteda, что означает переменная Types, возвращаемая сводкой (корпус)?
Я изучал пакет quanteda из R и просто не смог найти в документах, что означает переменная с именем Types, возвращаемая суммированием (immig_corp). require(quanteda) require(readtext) Теперь я создаю корпус: immig_corp <- corpus(data_char_ukimmig2…
19 авг '18 в 13:41
2
ответа
R: найти ngram, используя dfm, когда в одном документе несколько предложений
У меня большой набор данных (>1 миллиона строк), и каждая строка представляет собой текст из нескольких предложений. Например, следующий пример из 2 строк: mydat <- data.frame(text=c('I like apple. Me too','One two. Thank you'),stringsAsFactors =…
31 июл '16 в 02:46
1
ответ
quanteda не создает корпус из объекта corpusSource
Я использую Windows 7 с 32-разрядной операционной системой с 4 ГБ ОЗУ, из которых только 3 ГБ доступны из-за 32-разрядных ограничений. Я отключил все остальное и вижу, что у меня есть около 1 ГБ кэшированного и 1 ГБ доступного перед запуском. "Свобо…
18 авг '16 в 20:08
1
ответ
Как заменить токены (слова) на версии слов из моей таблицы?
Я получил такие данные (упрощенно): library(quanteda) Пример данных myText <- c("ala ma kotka", "kasia ma pieska") myDF <- data.frame(myText) myDF$myText <- as.character(myDF$myText) лексический анализ tokens <- tokens(myDF$myText, what …
27 сен '17 в 13:23
1
ответ
Почему имена подвигов (myDFM) содержат функции более чем одного или двух токенов?
Я работаю с большим 1М корпусом документов и применил несколько преобразований при создании из него матрицы частоты документа: library(quanteda) corpus_dfm <- dfm(tokens(corpus1M), # where corpus1M is already a corpus via quanteda::corpus() remov…
30 авг '17 в 09:09
1
ответ
Как экспортировать словарь в формате словаря LIWC с помощью R quanteda
В quanteda можно импортировать словари формата LIWC. Но есть ли способ экспортировать словарь из quanteda в формат LIWC? Пример формата словаря для LIWC приведен ниже (часть между% - это название каждой категории): % 462 Asentir 463 NoFluen 464 Rell…
17 июл '18 в 00:25
3
ответа
Как создать облака слов для текстовых файлов в каталоге в R
Я пытаюсь создать wordcloud для каждого текстового файла в каталоге. Это четыре президентских объявления. Я продолжаю получать следующее сообщение: > cname <- file.path("C:", "texts") > cname [1] "C:/texts" > cname <- file.path("C:\\U…
11 май '15 в 05:28
1
ответ
2 словосочетания словосочетания с использованием квантида в R
Это относится к функциональности texttat_collocations в пакете quanteda в R. Я получаю более 2 словосочетаний в выводе, хотя я запрашиваю только 2 словосочетания. Необходимые шаги обработки следующие (corpus1 уже создан с использованием функции corp…
29 янв '18 в 06:43
1
ответ
Можно ли использовать словарь ANEW для анализа настроений в quanteda?
Я пытаюсь найти способ применения Аффективных норм для английских слов (на голландском языке) для продольного анализа настроений с помощью Quanteda. То, что я в конечном счете хочу иметь, является "средним настроением" в год, чтобы показать любые пр…
23 май '17 в 10:32
1
ответ
Обработка на основе языка в R: выбор объектов в dfm с определенным значением точечной взаимной информации (PMI)
Я хотел бы сохранить такие 2-3 словосочетания (iefeatures) в моей dfm, которые имеют значение PMI более чем в 3 раза больше слов в фразе *. PMI определяется как: pmi(фраза) = log(p(фраза)/Product(p(слово)) с p (фраза): вероятность фразы на основе ее…
16 дек '18 в 13:07
3
ответа
Обратитесь к docname в Quanteda
Я пытаюсь создать таблицу данных, похожую на вывод из quanteda::textstat_frequency но с еще одним столбцом, docnames, который является строкой имен документов, которые содержат определенный токен. Например a_corpus <- quanteda::corpus(c("some cor…
17 дек '18 в 10:25
2
ответа
Разбор речевых транскриптов с использованием R
У меня есть несколько больших стенограмм выступлений, которые я пытаюсь получить в формате фрейма данных, где каждая строка представляет речь / высказывание, а имя соответствующего оратора находится в столбце. Вот снимок текста в его структурированн…
08 янв '19 в 17:35