Описание тега tidytext
Пакет tidytext предоставляет инструменты для интеллектуального анализа текста с использованием принципов аккуратности данных в R.
1
ответ
unnest_tokens не может обработать векторы в R с пакетом tidytext
Я хочу использовать tidytext пакет для создания столбца с "Ngrams". со следующим кодом: library(tidytext) unnest_tokens(tbl = president_tweets, output = bigrams, input = text, token = "ngrams", n = 2) Но когда я запускаю это, я получаю следующее соо…
20 дек '17 в 16:14
0
ответов
Как назначить номер токена словам?
Я только начал работать с tidytext пакет для интеллектуального анализа текста с использованием r. Мне нравится, как меньше строк кода преобразует текст в аккуратный формат. Однако я не смог найти, как назначить номера токенов для каждого слова. Напр…
31 окт '17 в 07:25
1
ответ
Как использовать биграммы и триграммы, используя аккуратный текст
Я пытаюсь использовать как биграмм, так и триграмму, используя тидитекст. Какой код я могу использовать для токена, чтобы искать 2 и 3 слова. Это код для использования только биграмм: library(tidytext) library(janeaustenr) austen_bigrams <- auste…
13 авг '17 в 18:21
1
ответ
Ошибка при установке пакетов tidytext - R
Я попытался установить пакет tidytext, но получил следующую ошибку: install.packages("tidytext") Installing package into ‘\\dcn4pfsh404/home_8/TUT/Documents/R/win-library/3.3’ (as ‘lib’ is unspecified) trying URL 'https://cran.rstudio.com/bin/window…
02 июн '17 в 14:31
1
ответ
Разделение и группировка простого текста (группировка текста по главам в кадре данных)?
У меня есть фрейм данных / Tibble, где я импортировал файл простого текста (TXT). Текст очень последовательный и сгруппирован по главам. Иногда текст главы - только одна строка, иногда - несколько строк. Данные в одном столбце так: # A tibble: 10,70…
20 ноя '18 в 23:44
1
ответ
Проблемы сохранения рабочего пространства в R
Я работаю над проектом с довольно большим рабочим пространством. К сожалению, я не могу сохранить рабочее пространство, и оно зависает. Если у меня есть небольшое рабочее пространство, я могу сделать save.image() только с фреймом данных >library(…
16 сен '18 в 09:47
2
ответа
Анализ настроений (AFINN) в R
Я пытаюсь настроить набор данных твитов, используя словарь AFINN (get_sentiments("afinn"). Пример набора данных представлен ниже: A tibble: 10 x 2 Date TweetText <dttm> <chr> 1 2018-02-10 21:58:19 "RT @RealSirTomJones: Still got the move…
06 май '18 в 14:28
1
ответ
Тидетекстовые слова с положительным и отрицательным настроением
Я работал с набором данных sentiments и обнаружил, что наборы данных bing и nrc содержат несколько слов, которые имеют как положительные, так и отрицательные чувства. ** бинг - три слова с положительным и отрицательным настроением ** env_test_bing_r…
02 сен '17 в 17:03
1
ответ
Подробности за "дополнением" применительно к моделированию темы
У меня есть вопрос о функции "дополнения" из учебника Силге и Робинсона "Текстовое копирование с помощью R: аккуратный подход". Запустив LDA на корпусе, я применяю "аугмент", чтобы назначать темы каждому слову. Я получаю результаты, но не уверен, чт…
16 ноя '18 в 15:27
1
ответ
Как извлечь From,To и Body из электронной почты, используя R
У меня есть данные электронной почты в формате документа, каждый формат документа имеет один адрес электронной почты. EX: From, Mr.Joseph, Sales Head, Wall Mart, London To, Ms Rebecca, Junior sales person, Wall Mart, London Dear Ms Rebecca, Lorem Ip…
19 дек '18 в 12:43
1
ответ
Символы Unicode не отображаются после использования функции 'str_extract_all' (stringr) в Rstudio
Я пытаюсь извлечь ряд слов из серии документов.txt с помощью функции str_extract_all. Все работает хорошо, за исключением того, что в результатах, которые я получаю, не отображаются символы Юникода (что хорошо в текстах UTF-8, из которых извлекается…
03 янв '19 в 15:33
2
ответа
Напротив unnest_tokens
Скорее всего, это глупый вопрос, но я погуглил и погуглил и не могу найти решение. Я думаю, это потому, что я не знаю, как правильно сформулировать свой вопрос для поиска. У меня есть фрейм данных, который я преобразовал в текстовый формат в R, чтоб…
13 окт '17 в 16:44
2
ответа
Построение различий с помощью ggplot2
У меня есть R dataframe (названный frequency) как это: word author proportion a Radicals 1.679437e-04 aa Radicals 2.099297e-04 aaa Radicals 2.099297e-05 abbe Radicals NA aboow Radicals NA about Radicals NA abraos Radicals NA ytterst Conservatives 5.…
17 апр '17 в 13:58
1
ответ
Передача `top_n` и `range` в ggplot (dplyr)
В TidyText Mining Section 3.3 есть прекрасный кусок кода, который я пытаюсь воспроизвести в своем собственном наборе данных. Однако в моих данных я не могу заставить ggplot "запомнить", что я хочу получить данные в порядке убывания, и что я хочу опр…
16 май '18 в 16:25
1
ответ
Определить временность предложения с пометкой POS
Я хочу выяснить, было ли выполнено действие, если оно будет выполнено из серии предложений. Например: "I will prescribe this medication" против "I prescribed this medication" или же "He had already taken the stuff" против "he may take the stuff late…
18 фев '19 в 13:22
1
ответ
R: Ошибка в UseMethod("tbl_vars")
Итак, я запускаю приведенный ниже код в R Studio и получаю эту ошибку: Ошибка в UseMethod("tbl_vars"): нет применимого метода для tbl_vars, примененного к объекту класса "персонаж" Я не знаю, как это исправить, потому что нет функции tbl_vars! Может…
23 май '18 в 13:19
0
ответов
Порядок баров по-разному между гранями в ggplot
Я работаю над сайтом https://www.tidytextmining.com/ и экспериментирую с набором данных книг Остин. Я пытаюсь изобразить наиболее часто встречающиеся слова в каждой из шести книг и заставить отдельные столбцы каждого сюжета идти в порядке убывания. …
06 мар '18 в 19:42
4
ответа
Работает ли tidytext::unnest_tokens с испанскими символами?
Я пытаюсь использовать unnest_tokens с испанским текстом. Он отлично работает с униграммами, но разбивает специальные символы биграммами. Код отлично работает на Linux. Я добавил информацию о локали. library(tidytext) library(dplyr) df <- data_fr…
08 дек '17 в 13:55
2
ответа
Поиск сокращений в данных с помощью R
В моих данных (это текст) есть сокращения. Есть ли какие-либо функции или код для поиска сокращений в тексте? Например, обнаружение 3-4-5 заглавных букв и позвольте мне посчитать, как часто они случаются. Очень признателен!
13 июн '17 в 18:20
1
ответ
Прочитать текст и соответствующие номера страниц из.docx в R
Как я могу прочитать файл Microsoft .docx в R и получить текст как одно поле и номер страницы как другое? Из библиотек readtext R я могу прочитать текст, но интересно, знаете ли вы, как получить номер страницы? install.packages("readtext") library(r…
30 июл '18 в 19:09