Описание тега text-analysis

Анализ текста - это область исследования, в которой используются инструменты лингвистического, статистического и машинного обучения для анализа текста с целью извлечения из него информации высокого качества.
1 ответ

Почему Stanford Topic Modeling Toolbox не создает каталог lda-output?

Я попытался запустить этот код из github (после 1-2-3 шагов), который определяет 30 тем в 14 500 электронных письмах Сары Пэйлин. Открытые автором темы находятся здесь. Тем не менее, Stanford Topic Modeling Toolbox не производит каталог lda-output д…
1 ответ

Тм пакет: stemCompletion не работает

У меня есть простой код для анализа текста. Перед созданием DTM я применяю stemCompletion. Однако, результат этого - кое-что, что я не понимаю, делаю ли я это неправильно, или это единственный способ, которым он ведет себя. Я ссылался на эту ссылку …
16 янв '17 в 10:10
2 ответа

Извлечь общие элементы в нескольких списках

В общем, я хочу извлечь общие элементы из колонки общего доступа "word" в нескольких CSV-файлах. (2008.csv, 2009.csv, 2010.csv .... 2015.csv) Все файлы имеют одинаковый формат: "слово", "количество" "слово" содержит все частые слова в одном документ…
16 фев '16 в 02:02
0 ответов

Извлечение курсивного текста из документа

У меня есть текстовый документ со списком названий видов, а затем различные тексты о каждом виде. Я хотел бы просто извлечь все названия видов. Очевидный способ сделать это - просто выделить весь текст курсивом. Тем не менее, я не могу найти способ …
04 окт '18 в 11:16
2 ответа

Ошибка кучи Java при экспорте искрового фрейма в базу данных куста

Я использую pyspark для анализа текста на столе в Hive. Я использую следующий код from pyspark.sql import SQLContext, Row, HiveContext from pyspark.sql.functions import col, udf, StringType from pyspark.sql.types import * from pyspark import SparkCo…
02 фев '17 в 20:25
1 ответ

Разделить по элементам строки и создать словарь с {элементом, используемым для разделения: этот фрагмент текста}

Рассмотрим следующий текст: "Mr. McCONNELL. yadda yadda jon stewart is mean to me. The PRESIDING OFFICER. Suck it up. Mr. McCONNELL. but noooo. Mr. REID. Really dude?" И список слов, чтобы разделить на: ["McCONNELL", "PRESIDING OFFICER", "REID"] Я х…
17 май '15 в 19:59
1 ответ

Ошибка при преобразовании входного токенизированного текста, предсказывающая настроения в течение последнего времени.

Я новичок в нейронной сети и изучаю его применение в области анализа текста, поэтому я использовал lstm rnn для приложения на python. После обучения модели на наборе данных размером 20 000*1 (2000- это текст, а 1- настроение текста), я получил хорош…
23 мар '18 в 08:15
2 ответа

Ruby Text/ Анализ настроений

У меня есть две строки - "I like running around the track. I like swimming in the pool, but only in the morning. Мне нужно вытащить то, что людям "нравится" из двух приведенных выше комментариев (running around the track а также swimming in the pool…
14 окт '13 в 20:59
0 ответов

Ошибка индекса строки вне диапазона при сканировании

Я продолжаю получать сообщение об ошибке с моей программой после того, как она сканирует первые 2 URL-адреса "Исключение в потоке"AWT-EventQueue-0" java.lang.StringIndexOutOfBoundsException: String index вне диапазона: 0". Первые пару URL-адресов пр…
1 ответ

API New York Times через командную строку

Я использую командную строку для доступа к API New York Times и сталкиваюсь с проблемами. Я получаю 'http' is not recognized as an internal or external command, operable program, or batch file когда я запускаю http://api.nytimes.com/svc/search/v2/ar…
20 фев '15 в 22:45
3 ответа

Используйте нейронную сеть brain.js для анализа текста

Я пытаюсь провести некоторый анализ текста, чтобы определить, является ли данная строка... разговором о политике. Я думаю, что мог бы создать нейронную сеть, в которой входными данными являются либо строка, либо список слов (порядок может иметь знач…
05 май '16 в 06:10
1 ответ

Почему мой скрипт на Python намного медленнее, чем его R-эквивалент?

ПРИМЕЧАНИЕ: этот вопрос описывает, почему скрипт такой медленный. Однако, если вы более склонны к улучшению, вы можете взглянуть на мой пост на CodeReview, который направлен на повышение производительности. Я работаю над проектом, который обрабатыва…
20 авг '15 в 14:45
0 ответов

Текстовая аналитика в R (Создание облака слов с хинди)

Я работаю над проектом текстовой аналитики, имея текстовый файл с текстовыми сообщениями на хинди и английском языке. Я могу читать текст на английском языке, но специальные символы появляются везде, где есть сообщение на хинди. Я хочу создать облак…
23 май '18 в 14:49
0 ответов

Группировка текстов в ведра в R

Мы работаем над опросом, в котором у нас есть несколько открытых ответов, состоящих из числовых / категориальных ответов. До сих пор мы использовали ручную классификацию этих текстов на 10-15 сегментов, чтобы маркетинговая команда могла принять меры…
1 ответ

Как я могу получить популярные теги / ключевые слова из коллекции неструктурированных фрагментов текста?

Я храню небольшие куски текста - скажем, около 100 - 200 слов - в базе данных NoSQL, и мне нужно отображать ключевые слова / теги среди всех этих кусков. Я знаю API-интерфейсы анализа текста, такие как алхимия, которые извлекают сущности из одного ф…
28 окт '14 в 01:34
1 ответ

unnest_tokens не может обработать векторы в R с пакетом tidytext

Я хочу использовать tidytext пакет для создания столбца с "Ngrams". со следующим кодом: library(tidytext) unnest_tokens(tbl = president_tweets, output = bigrams, input = text, token = "ngrams", n = 2) Но когда я запускаю это, я получаю следующее соо…
20 дек '17 в 16:14
1 ответ

R - Анализ текста - вводящие в заблуждение результаты

Я делаю некоторый текстовый анализ комментариев от клиентов банка, связанных с ипотекой, и я нахожу пару вещей, которые я понимаю. 1) После очистки данных без применения слов Stemming Words и проверки размера TDM количество терминов (2173) меньше, ч…
09 сен '18 в 23:20
0 ответов

Пользовательская функция не может быть передана через функцию content_transformer в пакете tm

Я пытаюсь провести анализ текста с использованием пакета TM в г. Я в системе Windows. Я создал простую функцию для преобразования существительных во множественном числе в единый формат. пожалуйста, смотрите прикрепленный для кода. to_single<-func…
26 июн '17 в 19:56
2 ответа

Источники секретных данных о настроениях?

Я хочу обучить наивного Байеса новым источникам данных, которые раньше не использовались. Я уже посмотрел на корпус Lee & Pang обзоров IMDB и корпус мнений MPQA. Я ищу новые веб-сервисы, которые соответствуют следующим критериям. Легко классифицируе…
1 ответ

Строка по частоте каждого слова в URL в R

Я очень новичок в программировании и мне нужна помощь в программировании на R для моего университетского проекта. Я хочу создать таблицу с частотой каждого слова. Входной файл содержит около 70000 строк данных, таких как идентификаторы и webURL, кот…
10 сен '16 в 14:17