Описание тега tidytext

Описание тега Вопросы с тегом

Пакет tidytext предоставляет инструменты для интеллектуального анализа текста с использованием принципов аккуратности данных в R.

1 ответ

unnest_tokens не может обработать векторы в R с пакетом tidytext

Я хочу использовать tidytext пакет для создания столбца с "Ngrams". со следующим кодом: library(tidytext) unnest_tokens(tbl = president_tweets, output = bigrams, input = text, token = "ngrams", n = 2) Но когда я запускаю это, я получаю следующее соо…

r text-analysis tidytext

20 дек '17 в 16:14

0 ответов

Как назначить номер токена словам?

Я только начал работать с tidytext пакет для интеллектуального анализа текста с использованием r. Мне нравится, как меньше строк кода преобразует текст в аккуратный формат. Однако я не смог найти, как назначить номера токенов для каждого слова. Напр…

r text-mining tidytext

31 окт '17 в 07:25

1 ответ

Как использовать биграммы и триграммы, используя аккуратный текст

Я пытаюсь использовать как биграмм, так и триграмму, используя тидитекст. Какой код я могу использовать для токена, чтобы искать 2 и 3 слова. Это код для использования только биграмм: library(tidytext) library(janeaustenr) austen_bigrams <- auste…

r token tidytext

13 авг '17 в 18:21

1 ответ

Ошибка при установке пакетов tidytext - R

Я попытался установить пакет tidytext, но получил следующую ошибку: install.packages("tidytext") Installing package into ‘\\dcn4pfsh404/home_8/TUT/Documents/R/win-library/3.3’ (as ‘lib’ is unspecified) trying URL 'https://cran.rstudio.com/bin/window…

r tidytext

02 июн '17 в 14:31

1 ответ

Разделение и группировка простого текста (группировка текста по главам в кадре данных)?

У меня есть фрейм данных / Tibble, где я импортировал файл простого текста (TXT). Текст очень последовательный и сгруппирован по главам. Иногда текст главы - только одна строка, иногда - несколько строк. Данные в одном столбце так: # A tibble: 10,70…

r nlp text-mining tidytext

20 ноя '18 в 23:44

1 ответ

Проблемы сохранения рабочего пространства в R

Я работаю над проектом с довольно большим рабочим пространством. К сожалению, я не могу сохранить рабочее пространство, и оно зависает. Если у меня есть небольшое рабочее пространство, я могу сделать save.image() только с фреймом данных >library(…

r save workspace tidytext

16 сен '18 в 09:47

2 ответа

Анализ настроений (AFINN) в R

Я пытаюсь настроить набор данных твитов, используя словарь AFINN (get_sentiments("afinn"). Пример набора данных представлен ниже: A tibble: 10 x 2 Date TweetText <dttm> <chr> 1 2018-02-10 21:58:19 "RT @RealSirTomJones: Still got the move…

r tidyverse sentiment-analysis tidytext lexicon

06 май '18 в 14:28

1 ответ

Тидетекстовые слова с положительным и отрицательным настроением

Я работал с набором данных sentiments и обнаружил, что наборы данных bing и nrc содержат несколько слов, которые имеют как положительные, так и отрицательные чувства. ** бинг - три слова с положительным и отрицательным настроением ** env_test_bing_r…

tidytext

02 сен '17 в 17:03

1 ответ

Подробности за "дополнением" применительно к моделированию темы

У меня есть вопрос о функции "дополнения" из учебника Силге и Робинсона "Текстовое копирование с помощью R: аккуратный подход". Запустив LDA на корпусе, я применяю "аугмент", чтобы назначать темы каждому слову. Я получаю результаты, но не уверен, чт…

r text-mining lda topic-modeling tidytext

16 ноя '18 в 15:27

1 ответ

Как извлечь From,To и Body из электронной почты, используя R

У меня есть данные электронной почты в формате документа, каждый формат документа имеет один адрес электронной почты. EX: From, Mr.Joseph, Sales Head, Wall Mart, London To, Ms Rebecca, Junior sales person, Wall Mart, London Dear Ms Rebecca, Lorem Ip…

r regex stringr tm tidytext

19 дек '18 в 12:43

1 ответ

Символы Unicode не отображаются после использования функции 'str_extract_all' (stringr) в Rstudio

Я пытаюсь извлечь ряд слов из серии документов.txt с помощью функции str_extract_all. Все работает хорошо, за исключением того, что в результатах, которые я получаю, не отображаются символы Юникода (что хорошо в текстах UTF-8, из которых извлекается…

r utf-8 tidyverse stringr tidytext

03 янв '19 в 15:33

2 ответа

Напротив unnest_tokens

Скорее всего, это глупый вопрос, но я погуглил и погуглил и не могу найти решение. Я думаю, это потому, что я не знаю, как правильно сформулировать свой вопрос для поиска. У меня есть фрейм данных, который я преобразовал в текстовый формат в R, чтоб…

r tidyverse tidyr tidytext

13 окт '17 в 16:44

2 ответа

Построение различий с помощью ggplot2

У меня есть R dataframe (названный frequency) как это: word author proportion a Radicals 1.679437e-04 aa Radicals 2.099297e-04 aaa Radicals 2.099297e-05 abbe Radicals NA aboow Radicals NA about Radicals NA abraos Radicals NA ytterst Conservatives 5.…

r ggplot2 plot tidyverse tidytext

17 апр '17 в 13:58

1 ответ

Передача `top_n` и `range` в ggplot (dplyr)

В TidyText Mining Section 3.3 есть прекрасный кусок кода, который я пытаюсь воспроизвести в своем собственном наборе данных. Однако в моих данных я не могу заставить ggplot "запомнить", что я хочу получить данные в порядке убывания, и что я хочу опр…

r ggplot2 tidytext

16 май '18 в 16:25

1 ответ

Определить временность предложения с пометкой POS

Я хочу выяснить, было ли выполнено действие, если оно будет выполнено из серии предложений. Например: "I will prescribe this medication" против "I prescribed this medication" или же "He had already taken the stuff" против "he may take the stuff late…

r text-mining tidytext

18 фев '19 в 13:22

1 ответ

R: Ошибка в UseMethod("tbl_vars")

Итак, я запускаю приведенный ниже код в R Studio и получаю эту ошибку: Ошибка в UseMethod("tbl_vars"): нет применимого метода для tbl_vars, примененного к объекту класса "персонаж" Я не знаю, как это исправить, потому что нет функции tbl_vars! Может…

r loops dplyr tidytext

23 май '18 в 13:19

0 ответов

Порядок баров по-разному между гранями в ggplot

Я работаю над сайтом https://www.tidytextmining.com/ и экспериментирую с набором данных книг Остин. Я пытаюсь изобразить наиболее часто встречающиеся слова в каждой из шести книг и заставить отдельные столбцы каждого сюжета идти в порядке убывания. …

r ggplot2 dplyr tidytext

06 мар '18 в 19:42

4 ответа

Работает ли tidytext::unnest_tokens с испанскими символами?

Я пытаюсь использовать unnest_tokens с испанским текстом. Он отлично работает с униграммами, но разбивает специальные символы биграммами. Код отлично работает на Linux. Я добавил информацию о локали. library(tidytext) library(dplyr) df <- data_fr…

r tidytext

08 дек '17 в 13:55

2 ответа

Поиск сокращений в данных с помощью R

В моих данных (это текст) есть сокращения. Есть ли какие-либо функции или код для поиска сокращений в тексте? Например, обнаружение 3-4-5 заглавных букв и позвольте мне посчитать, как часто они случаются. Очень признателен!

r regex tidyr stringr tidytext

13 июн '17 в 18:20

1 ответ

Прочитать текст и соответствующие номера страниц из.docx в R

Как я могу прочитать файл Microsoft .docx в R и получить текст как одно поле и номер страницы как другое? Из библиотек readtext R я могу прочитать текст, но интересно, знаете ли вы, как получить номер страницы? install.packages("readtext") library(r…

r tm text-analysis tidytext

30 июл '18 в 19:09