Описание тега text-mining

Описание тега Вопросы с тегом

Text Mining - это процесс получения высококачественной информации из неструктурированной (текстовой) информации.

0 ответов

Я загружаю текст в R для интеллектуального анализа текста и получаю "" вместо "" (апостроф)

При загрузке текста в R апостроф преобразуется в "…", например: I'm => Iâ€™m We're => Weâ€™re you're => youâ€™re Я попытался заменить неправильную последовательность, но ничего не меняется. for (j in seq(Docs)) { Docs[[j]] <- gsub("â€™",…

r rstudio text-mining

29 авг '17 в 06:28

2 ответа

Как удалить глаголы, предлоги, союзы и т. Д. Из моего текста?

В основном в моем тексте я просто хочу сохранить существительные и удалить другие части речи. Я не думаю, что есть какой-либо автоматизированный способ для этого. Если есть, пожалуйста, предложите. Если нет автоматизированного способа, я также могу …

python r text-mining

25 июн '14 в 10:28

0 ответов

Р: Спящие? Как бороться с ошибками при извлечении с использованием больших циклов?

Я был бы так благодарен за любой совет - даже источник, чтобы исследовать себя. Я - количественный исследователь социальных наук, и мои навыки программирования быстро улучшаются, но я все еще новичок. Мой вопрос о шпалах? или любая стратегия, чтобы …

r loops nlp warnings text-mining

22 янв '18 в 10:50

1 ответ

Токенайзер предложений nltk дает AttributeError

Я очень новичок в Python и NLTK. Одна проблема сбивает меня с толку: Когда я делаю tokenized = custom_sent_tokenizer.tokenize("some long text") Это дает мне идеальный результат. Но когда я изменяю эту жестко закодированную строку на переменную, соде…

python python-3.x nltk tokenize text-mining

12 май '16 в 12:52

3 ответа

findAssocs в одном документе

У меня только один документ (подборка опросов). Я хочу связать слова в одном документе с findAssocs. Пока что все примеры, которые я видел, представляют собой комбинацию нескольких документов. inspect(myDtm) A term-document matrix (864 terms, 1 docu…

r text-mining

12 окт '13 в 08:11

1 ответ

Мой DocumentTermMatrix сводится к нулю столбцов

train <- read.delim('train.tsv', header= T, fileEncoding= "windows-1252",stringsAsFactors=F) Train.tsv содержит 1,56,060 строк текста с 4 именами столбцов Phrase, PhraseID, SentenceID и Sentiment(в масштабе от 0 до 4). Столбец Phrase содержит тек…

r text-mining tm term-document-matrix

31 янв '15 в 05:35

1 ответ

Парсинг сложной текстовой строки и сохранение каждой записи в переменную - Ja va

У меня есть автоматически сгенерированные строки, подобные следующим: 40 1655.28 ------- 212.61 2.01 ( 40.31%) ( 9)STRE C=C (aminoA - part A) -> 1 является ли их любой рациональный и "легкий" способ разделить предыдущую строку на другой, который …

java parsing split text-mining

17 сен '14 в 08:04

2 ответа

Runtime Pompt для Rapidminer

Я использовал Rapidminer и создал серию процессов, которые формируют стандартный набор задач. Теперь я хочу позволить пользователю динамически устанавливать параметры процесса при запуске. Например, при написании CSV-файла я хочу предложить пользова…

data-mining text-mining rapidminer

15 дек '10 в 12:36

1 ответ

Тм пакет: stemCompletion не работает

У меня есть простой код для анализа текста. Перед созданием DTM я применяю stemCompletion. Однако, результат этого - кое-что, что я не понимаю, делаю ли я это неправильно, или это единственный способ, которым он ведет себя. Я ссылался на эту ссылку …

r text-mining tm stemming text-analysis

16 янв '17 в 10:10

0 ответов

Как я могу читать разные текстовые файлы в Matlab

Как я могу читать разные текстовые файлы в Matlab. Учитывая, что существует 33 TXT-файла и что каждый должен быть обработан. Вот часть моего кода с ошибкой. textFilename = cell(1,33); id = cell(1,33); for k=1:33; textFilename{k} = fullfile('C:\Users…

matlab file-io text-files text-mining

31 май '14 в 17:26

1 ответ

Способ классификации слов с ошибками в группах по правильному слову?

У меня есть огромный список стран, по которым мне нужно классифицировать их по группам в соответствии с их первоначальным названием. На самом деле есть много орфографических ошибок, но есть много написанных на других языках. Например ТАИЛАНД ТУНИС Т…

r text text-mining

14 апр '16 в 10:18

2 ответа

Ошибка: не удалось найти функцию "classify_emotion"

Я пытался сделать анализ настроения для случайного файла. Однако выдается ошибка: could not find function "classify_emotion" Пакет "sentiment" не был доступен (для версии R 3.1.2). Однако получил то же самое через: install_github('sentiment140', 'ok…

r text-mining

18 июл '17 в 19:47

2 ответа

Алгоритм C# для N-граммы

Я собираюсь использовать n-граммовый код из этой статьи. Алгоритм дает следующие результаты триграммы: t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d для текста the quick red Однако википедия считает, что это должно быть так: the …

c# text-mining information-retrieval n-gram

30 сен '10 в 08:53

1 ответ

Об интеллектуальном анализе данных с использованием данных Twitter

Я планирую написать тезис об использовании информации о настроениях, чтобы повысить предсказуемость некоторых финансовых моделей торговли валютой. Данные о настроениях должны быть в темах твиттера, включая ключевое слово, например "EUR.USD". И я отф…

twitter text-mining

15 окт '11 в 00:17

1 ответ

Объединить корпус в тм 0.7.3

Использование пакета интеллектуального анализа текста tm для R следующие версии работают в версии 0.6.2, R версии 3.4.3: library(tm) a = "This is the first document." b = "This is the second document." c = "This is the third document." d = "This is …

r version text-mining backwards-compatibility

12 янв '18 в 10:22

3 ответа

Объединение твитов по дате

Я надеюсь, что это не основной вопрос, у меня есть дата твит (в R). Моя цель - рассчитать настроение по дате. Я был бы очень благодарен, если бы кто-нибудь посоветовал мне, как объединить твиты tweet$text по дате, где каждое наблюдение становится ст…

r text-mining string-concatenation

11 ноя '17 в 20:11

1 ответ

Извлечение текста между HTML-тегами и маркировка его тегом в R

Я пытаюсь научиться классифицировать предложения в R. У меня есть текстовый файл, содержащий предложения в следующем формате: <happy> This did the trick : the boys now have a more distant friendship and David is much happier . <\happy> &…

r nlp text-mining

27 мар '17 в 23:56

3 ответа

Заменить часть строки (интеллектуальный анализ текста)

Я хотел бы заменить часть "Заменить" в строках от df$x до первого слова в столбце df$y. У меня есть df, как это: x y ABC-Replace-YUI M46 Hello CBD-Replace-TYU MD5 Hello DBE-Replace-RTY M6 Hello EBF-Replace-ERT M79 Hello FBG-Replace-WER MMM8 Hello И …

r text-mining

23 авг '16 в 12:45

1 ответ

Почему R не может прочитать текстовый файл

Попытайтесь заставить R прочитать мой текстовый файл и сделать анализ текста, но, следуя инструкциям, он не работает, не знаю, что не так. Кто-то плз, помогите мне library(tm) setwd("E://") path="E:/KEYWORDS" text<-readLines("KEYWORDS.txt") corpu…

r text-mining

10 авг '18 в 11:32

0 ответов

Regex, чтобы удалить все двухбуквенные слова, но исключить некоторые

Я пытаюсь удалить все одно- или двухбуквенные слова в R с помощью этого регулярного выражения: \\b\\w{1,2}\\b Но я также хочу исключить некоторые двухбуквенные слова из удаления, например, IT. Есть какой-либо способ сделать это?

r regex text-mining

16 авг '17 в 15:33