Описание тега text-mining
Text Mining - это процесс получения высококачественной информации из неструктурированной (текстовой) информации.
0
ответов
Я загружаю текст в R для интеллектуального анализа текста и получаю "" вместо "" (апостроф)
При загрузке текста в R апостроф преобразуется в "…", например: I'm => I’m We're => We’re you're => you’re Я попытался заменить неправильную последовательность, но ничего не меняется. for (j in seq(Docs)) { Docs[[j]] <- gsub("’",…
29 авг '17 в 06:28
2
ответа
Как удалить глаголы, предлоги, союзы и т. Д. Из моего текста?
В основном в моем тексте я просто хочу сохранить существительные и удалить другие части речи. Я не думаю, что есть какой-либо автоматизированный способ для этого. Если есть, пожалуйста, предложите. Если нет автоматизированного способа, я также могу …
25 июн '14 в 10:28
0
ответов
Р: Спящие? Как бороться с ошибками при извлечении с использованием больших циклов?
Я был бы так благодарен за любой совет - даже источник, чтобы исследовать себя. Я - количественный исследователь социальных наук, и мои навыки программирования быстро улучшаются, но я все еще новичок. Мой вопрос о шпалах? или любая стратегия, чтобы …
22 янв '18 в 10:50
1
ответ
Токенайзер предложений nltk дает AttributeError
Я очень новичок в Python и NLTK. Одна проблема сбивает меня с толку: Когда я делаю tokenized = custom_sent_tokenizer.tokenize("some long text") Это дает мне идеальный результат. Но когда я изменяю эту жестко закодированную строку на переменную, соде…
12 май '16 в 12:52
3
ответа
findAssocs в одном документе
У меня только один документ (подборка опросов). Я хочу связать слова в одном документе с findAssocs. Пока что все примеры, которые я видел, представляют собой комбинацию нескольких документов. inspect(myDtm) A term-document matrix (864 terms, 1 docu…
12 окт '13 в 08:11
1
ответ
Мой DocumentTermMatrix сводится к нулю столбцов
train <- read.delim('train.tsv', header= T, fileEncoding= "windows-1252",stringsAsFactors=F) Train.tsv содержит 1,56,060 строк текста с 4 именами столбцов Phrase, PhraseID, SentenceID и Sentiment(в масштабе от 0 до 4). Столбец Phrase содержит тек…
31 янв '15 в 05:35
1
ответ
Парсинг сложной текстовой строки и сохранение каждой записи в переменную - Ja va
У меня есть автоматически сгенерированные строки, подобные следующим: 40 1655.28 ------- 212.61 2.01 ( 40.31%) ( 9)STRE C=C (aminoA - part A) -> 1 является ли их любой рациональный и "легкий" способ разделить предыдущую строку на другой, который …
17 сен '14 в 08:04
2
ответа
Runtime Pompt для Rapidminer
Я использовал Rapidminer и создал серию процессов, которые формируют стандартный набор задач. Теперь я хочу позволить пользователю динамически устанавливать параметры процесса при запуске. Например, при написании CSV-файла я хочу предложить пользова…
15 дек '10 в 12:36
1
ответ
Тм пакет: stemCompletion не работает
У меня есть простой код для анализа текста. Перед созданием DTM я применяю stemCompletion. Однако, результат этого - кое-что, что я не понимаю, делаю ли я это неправильно, или это единственный способ, которым он ведет себя. Я ссылался на эту ссылку …
16 янв '17 в 10:10
0
ответов
Как я могу читать разные текстовые файлы в Matlab
Как я могу читать разные текстовые файлы в Matlab. Учитывая, что существует 33 TXT-файла и что каждый должен быть обработан. Вот часть моего кода с ошибкой. textFilename = cell(1,33); id = cell(1,33); for k=1:33; textFilename{k} = fullfile('C:\Users…
31 май '14 в 17:26
1
ответ
Способ классификации слов с ошибками в группах по правильному слову?
У меня есть огромный список стран, по которым мне нужно классифицировать их по группам в соответствии с их первоначальным названием. На самом деле есть много орфографических ошибок, но есть много написанных на других языках. Например ТАИЛАНД ТУНИС Т…
14 апр '16 в 10:18
2
ответа
Ошибка: не удалось найти функцию "classify_emotion"
Я пытался сделать анализ настроения для случайного файла. Однако выдается ошибка: could not find function "classify_emotion" Пакет "sentiment" не был доступен (для версии R 3.1.2). Однако получил то же самое через: install_github('sentiment140', 'ok…
18 июл '17 в 19:47
2
ответа
Алгоритм C# для N-граммы
Я собираюсь использовать n-граммовый код из этой статьи. Алгоритм дает следующие результаты триграммы: t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d для текста the quick red Однако википедия считает, что это должно быть так: the …
30 сен '10 в 08:53
1
ответ
Об интеллектуальном анализе данных с использованием данных Twitter
Я планирую написать тезис об использовании информации о настроениях, чтобы повысить предсказуемость некоторых финансовых моделей торговли валютой. Данные о настроениях должны быть в темах твиттера, включая ключевое слово, например "EUR.USD". И я отф…
15 окт '11 в 00:17
1
ответ
Объединить корпус в тм 0.7.3
Использование пакета интеллектуального анализа текста tm для R следующие версии работают в версии 0.6.2, R версии 3.4.3: library(tm) a = "This is the first document." b = "This is the second document." c = "This is the third document." d = "This is …
12 янв '18 в 10:22
3
ответа
Объединение твитов по дате
Я надеюсь, что это не основной вопрос, у меня есть дата твит (в R). Моя цель - рассчитать настроение по дате. Я был бы очень благодарен, если бы кто-нибудь посоветовал мне, как объединить твиты tweet$text по дате, где каждое наблюдение становится ст…
11 ноя '17 в 20:11
1
ответ
Извлечение текста между HTML-тегами и маркировка его тегом в R
Я пытаюсь научиться классифицировать предложения в R. У меня есть текстовый файл, содержащий предложения в следующем формате: <happy> This did the trick : the boys now have a more distant friendship and David is much happier . <\happy> &…
27 мар '17 в 23:56
3
ответа
Заменить часть строки (интеллектуальный анализ текста)
Я хотел бы заменить часть "Заменить" в строках от df$x до первого слова в столбце df$y. У меня есть df, как это: x y ABC-Replace-YUI M46 Hello CBD-Replace-TYU MD5 Hello DBE-Replace-RTY M6 Hello EBF-Replace-ERT M79 Hello FBG-Replace-WER MMM8 Hello И …
23 авг '16 в 12:45
1
ответ
Почему R не может прочитать текстовый файл
Попытайтесь заставить R прочитать мой текстовый файл и сделать анализ текста, но, следуя инструкциям, он не работает, не знаю, что не так. Кто-то плз, помогите мне library(tm) setwd("E://") path="E:/KEYWORDS" text<-readLines("KEYWORDS.txt") corpu…
10 авг '18 в 11:32
0
ответов
Regex, чтобы удалить все двухбуквенные слова, но исключить некоторые
Я пытаюсь удалить все одно- или двухбуквенные слова в R с помощью этого регулярного выражения: \\b\\w{1,2}\\b Но я также хочу исключить некоторые двухбуквенные слова из удаления, например, IT. Есть какой-либо способ сделать это?
16 авг '17 в 15:33