Описание тега quanteda

Пакет quanteda предоставляет быстрый и гибкий набор инструментов для управления, обработки и количественного анализа текстовых данных в R.
1 ответ

Квантеда, сколько масштаб может обрабатывать texttat_simil

Я использую Quanteda в течение последних нескольких месяцев и действительно наслаждаюсь использованием пакета. У меня один вопрос: сколько строк dfm может обработать функция texttat_simil до того, как время создания матрицы подобия станет слишком дл…
13 ноя '18 в 12:00
1 ответ

Quanteda: матрица возможностей документа с предопределенным набором функций

Я использую Quanteda для создания двух матриц функций документа: library(quanteda) DFM1 <- dfm("this is a rock") # features # docs this is a rock # text1 1 1 1 1 DFM2 <- dfm("this is music") # features # docs this is music # text1 1 1 1 Тем не…
05 окт '17 в 21:33
1 ответ

Как отфильтровать dfm по документам с хотя бы n терминами в кванте?

Я анализирую текстовые данные с круглого стола и хотел бы знать, можно ли отфильтровать только те документы, у которых больше, чем "n" терминов? В моем корпусе есть документы, которые содержат только 1 слово, например: "Спасибо", "Иногда", "Действит…
26 янв '19 в 17:29
1 ответ

Стебель с квантедой

Я использую следующую команду, чтобы сделать stemming с помощью Quanteda myDfm <- dfm(tokens_remove(tokens(df2, remove_punct = TRUE, stem = TRUE, remove_numbers = TRUE, remove_symbols = TRUE), stopwords(source = "smart")), ngrams = c(1,2)) Однако…
03 фев '19 в 22:46
1 ответ

Создать DFM шаг за шагом с Quanteda

Я хочу проанализировать большой (n=500 000) корпус документов. я использую quanteda в ожидании, что будет быстрее, чем tm_map() от tm, Я хочу продолжить шаг за шагом, а не использовать автоматический способ с dfm(), У меня есть причины для этого: в …
13 авг '16 в 09:54
1 ответ

R: Quanteda: могу ли я использовать texttat_keyness на двух отдельных корпусах?

Использование "texttat_keyness" следующее: textstat_keyness(x, target = 1L, measure = c("chi2", "exact", "lr", "pmi"), sort = TRUE, correction = c("default", "yates", "williams", "none")) "target" - это "индекс документа (числовой, символьный или ло…
05 апр '18 в 08:30
1 ответ

Создание слова из букв

Я пытаюсь создать DFM букв из строк. Я сталкиваюсь с проблемами, когда dfm не может выбрать, может создать функции для пунктуации, такие как "/" "-" "." или же '. require(quanteda) dict = c('a','b','c','d','e','f','/',".",'-',"'") dict <- quanted…
20 ноя '16 в 02:10
0 ответов

"MV" не работает масштабирование

Я пытаюсь использовать шкалы слов в корпусе, но когда я использую масштабирование "mv", код не может установить в качестве справочных текстов те, которые я выбрал. Кроме того, несмотря на то, что я устанавливаю -1 и 1 в качестве опорных значений, пр…
27 фев '18 в 15:47
1 ответ

Quanteda, что означает переменная Types, возвращаемая сводкой (корпус)?

Я изучал пакет quanteda из R и просто не смог найти в документах, что означает переменная с именем Types, возвращаемая суммированием (immig_corp). require(quanteda) require(readtext) Теперь я создаю корпус: immig_corp <- corpus(data_char_ukimmig2…
19 авг '18 в 13:41
2 ответа

R: найти ngram, используя dfm, когда в одном документе несколько предложений

У меня большой набор данных (>1 миллиона строк), и каждая строка представляет собой текст из нескольких предложений. Например, следующий пример из 2 строк: mydat <- data.frame(text=c('I like apple. Me too','One two. Thank you'),stringsAsFactors =…
31 июл '16 в 02:46
1 ответ

quanteda не создает корпус из объекта corpusSource

Я использую Windows 7 с 32-разрядной операционной системой с 4 ГБ ОЗУ, из которых только 3 ГБ доступны из-за 32-разрядных ограничений. Я отключил все остальное и вижу, что у меня есть около 1 ГБ кэшированного и 1 ГБ доступного перед запуском. "Свобо…
18 авг '16 в 20:08
1 ответ

Как заменить токены (слова) на версии слов из моей таблицы?

Я получил такие данные (упрощенно): library(quanteda) Пример данных myText <- c("ala ma kotka", "kasia ma pieska") myDF <- data.frame(myText) myDF$myText <- as.character(myDF$myText) лексический анализ tokens <- tokens(myDF$myText, what …
27 сен '17 в 13:23
1 ответ

Почему имена подвигов (myDFM) содержат функции более чем одного или двух токенов?

Я работаю с большим 1М корпусом документов и применил несколько преобразований при создании из него матрицы частоты документа: library(quanteda) corpus_dfm <- dfm(tokens(corpus1M), # where corpus1M is already a corpus via quanteda::corpus() remov…
30 авг '17 в 09:09
1 ответ

Как экспортировать словарь в формате словаря LIWC с помощью R quanteda

В quanteda можно импортировать словари формата LIWC. Но есть ли способ экспортировать словарь из quanteda в формат LIWC? Пример формата словаря для LIWC приведен ниже (часть между% - это название каждой категории): % 462 Asentir 463 NoFluen 464 Rell…
17 июл '18 в 00:25
3 ответа

Как создать облака слов для текстовых файлов в каталоге в R

Я пытаюсь создать wordcloud для каждого текстового файла в каталоге. Это четыре президентских объявления. Я продолжаю получать следующее сообщение: > cname <- file.path("C:", "texts") > cname [1] "C:/texts" > cname <- file.path("C:\\U…
1 ответ

2 словосочетания словосочетания с использованием квантида в R

Это относится к функциональности texttat_collocations в пакете quanteda в R. Я получаю более 2 словосочетаний в выводе, хотя я запрашиваю только 2 словосочетания. Необходимые шаги обработки следующие (corpus1 уже создан с использованием функции corp…
29 янв '18 в 06:43
1 ответ

Можно ли использовать словарь ANEW для анализа настроений в quanteda?

Я пытаюсь найти способ применения Аффективных норм для английских слов (на голландском языке) для продольного анализа настроений с помощью Quanteda. То, что я в конечном счете хочу иметь, является "средним настроением" в год, чтобы показать любые пр…
23 май '17 в 10:32
1 ответ

Обработка на основе языка в R: выбор объектов в dfm с определенным значением точечной взаимной информации (PMI)

Я хотел бы сохранить такие 2-3 словосочетания (iefeatures) в моей dfm, которые имеют значение PMI более чем в 3 раза больше слов в фразе *. PMI определяется как: pmi(фраза) = log(p(фраза)/Product(p(слово)) с p (фраза): вероятность фразы на основе ее…
16 дек '18 в 13:07
3 ответа

Обратитесь к docname в Quanteda

Я пытаюсь создать таблицу данных, похожую на вывод из quanteda::textstat_frequency но с еще одним столбцом, docnames, который является строкой имен документов, которые содержат определенный токен. Например a_corpus <- quanteda::corpus(c("some cor…
17 дек '18 в 10:25
2 ответа

Разбор речевых транскриптов с использованием R

У меня есть несколько больших стенограмм выступлений, которые я пытаюсь получить в формате фрейма данных, где каждая строка представляет речь / высказывание, а имя соответствующего оратора находится в столбце. Вот снимок текста в его структурированн…
08 янв '19 в 17:35