Описание тега text-analysis

Вопросы с тегом

Анализ текста - это область исследования, в которой используются инструменты лингвистического, статистического и машинного обучения для анализа текста с целью извлечения из него информации высокого качества.

1 ответ

Почему Stanford Topic Modeling Toolbox не создает каталог lda-output?

Я попытался запустить этот код из github (после 1-2-3 шагов), который определяет 30 тем в 14 500 электронных письмах Сары Пэйлин. Открытые автором темы находятся здесь. Тем не менее, Stanford Topic Modeling Toolbox не производит каталог lda-output д…

18 апр '12 в 19:59

1 ответ

Тм пакет: stemCompletion не работает

У меня есть простой код для анализа текста. Перед созданием DTM я применяю stemCompletion. Однако, результат этого - кое-что, что я не понимаю, делаю ли я это неправильно, или это единственный способ, которым он ведет себя. Я ссылался на эту ссылку …

r text-mining tm stemming text-analysis

16 янв '17 в 10:10

2 ответа

Извлечь общие элементы в нескольких списках

В общем, я хочу извлечь общие элементы из колонки общего доступа "word" в нескольких CSV-файлах. (2008.csv, 2009.csv, 2010.csv .... 2015.csv) Все файлы имеют одинаковый формат: "слово", "количество" "слово" содержит все частые слова в одном документ…

python tf-idf text-analysis

16 фев '16 в 02:02

0 ответов

Извлечение курсивного текста из документа

У меня есть текстовый документ со списком названий видов, а затем различные тексты о каждом виде. Я хотел бы просто извлечь все названия видов. Очевидный способ сделать это - просто выделить весь текст курсивом. Тем не менее, я не могу найти способ …

python text text-analysis

04 окт '18 в 11:16

2 ответа

Ошибка кучи Java при экспорте искрового фрейма в базу данных куста

Я использую pyspark для анализа текста на столе в Hive. Я использую следующий код from pyspark.sql import SQLContext, Row, HiveContext from pyspark.sql.functions import col, udf, StringType from pyspark.sql.types import * from pyspark import SparkCo…

hadoop pyspark out-of-memory text-analysis

02 фев '17 в 20:25

1 ответ

Разделить по элементам строки и создать словарь с {элементом, используемым для разделения: этот фрагмент текста}

Рассмотрим следующий текст: "Mr. McCONNELL. yadda yadda jon stewart is mean to me. The PRESIDING OFFICER. Suck it up. Mr. McCONNELL. but noooo. Mr. REID. Really dude?" И список слов, чтобы разделить на: ["McCONNELL", "PRESIDING OFFICER", "REID"] Я х…

python python-2.7 split text-analysis

17 май '15 в 19:59

1 ответ

Ошибка при преобразовании входного токенизированного текста, предсказывающая настроения в течение последнего времени.

Я новичок в нейронной сети и изучаю его применение в области анализа текста, поэтому я использовал lstm rnn для приложения на python. После обучения модели на наборе данных размером 20 000*1 (2000- это текст, а 1- настроение текста), я получил хорош…

keras lstm sentiment-analysis rnn text-analysis

23 мар '18 в 08:15

2 ответа

Ruby Text/ Анализ настроений

У меня есть две строки - "I like running around the track. I like swimming in the pool, but only in the morning. Мне нужно вытащить то, что людям "нравится" из двух приведенных выше комментариев (running around the track а также swimming in the pool…

ruby text-analysis

14 окт '13 в 20:59

0 ответов

Ошибка индекса строки вне диапазона при сканировании

Я продолжаю получать сообщение об ошибке с моей программой после того, как она сканирует первые 2 URL-адреса "Исключение в потоке"AWT-EventQueue-0" java.lang.StringIndexOutOfBoundsException: String index вне диапазона: 0". Первые пару URL-адресов пр…

java http web-crawler search-engine text-analysis

11 мар '14 в 12:23

1 ответ

API New York Times через командную строку

Я использую командную строку для доступа к API New York Times и сталкиваюсь с проблемами. Я получаю 'http' is not recognized as an internal or external command, operable program, or batch file когда я запускаю http://api.nytimes.com/svc/search/v2/ar…

api command-line text-analysis

20 фев '15 в 22:45

3 ответа

Используйте нейронную сеть brain.js для анализа текста

Я пытаюсь провести некоторый анализ текста, чтобы определить, является ли данная строка... разговором о политике. Я думаю, что мог бы создать нейронную сеть, в которой входными данными являются либо строка, либо список слов (порядок может иметь знач…

neural-network text-analysis brain.js

05 май '16 в 06:10

1 ответ

Почему мой скрипт на Python намного медленнее, чем его R-эквивалент?

ПРИМЕЧАНИЕ: этот вопрос описывает, почему скрипт такой медленный. Однако, если вы более склонны к улучшению, вы можете взглянуть на мой пост на CodeReview, который направлен на повышение производительности. Я работаю над проектом, который обрабатыва…

python r regex bigdata text-analysis

20 авг '15 в 14:45

0 ответов

Текстовая аналитика в R (Создание облака слов с хинди)

Я работаю над проектом текстовой аналитики, имея текстовый файл с текстовыми сообщениями на хинди и английском языке. Я могу читать текст на английском языке, но специальные символы появляются везде, где есть сообщение на хинди. Я хочу создать облак…

r text-analysis

23 май '18 в 14:49

0 ответов

Группировка текстов в ведра в R

Мы работаем над опросом, в котором у нас есть несколько открытых ответов, состоящих из числовых / категориальных ответов. До сих пор мы использовали ручную классификацию этих текстов на 10-15 сегментов, чтобы маркетинговая команда могла принять меры…

r logistic-regression text-mining text-analysis

28 авг '17 в 17:06

1 ответ

Как я могу получить популярные теги / ключевые слова из коллекции неструктурированных фрагментов текста?

Я храню небольшие куски текста - скажем, около 100 - 200 слов - в базе данных NoSQL, и мне нужно отображать ключевые слова / теги среди всех этих кусков. Я знаю API-интерфейсы анализа текста, такие как алхимия, которые извлекают сущности из одного ф…

full-text-search text-analysis

28 окт '14 в 01:34

1 ответ

unnest_tokens не может обработать векторы в R с пакетом tidytext

Я хочу использовать tidytext пакет для создания столбца с "Ngrams". со следующим кодом: library(tidytext) unnest_tokens(tbl = president_tweets, output = bigrams, input = text, token = "ngrams", n = 2) Но когда я запускаю это, я получаю следующее соо…

r text-analysis tidytext

20 дек '17 в 16:14

1 ответ

R - Анализ текста - вводящие в заблуждение результаты

Я делаю некоторый текстовый анализ комментариев от клиентов банка, связанных с ипотекой, и я нахожу пару вещей, которые я понимаю. 1) После очистки данных без применения слов Stemming Words и проверки размера TDM количество терминов (2173) меньше, ч…

r text-mining tm text-analysis qdap

09 сен '18 в 23:20

0 ответов

Пользовательская функция не может быть передана через функцию content_transformer в пакете tm

Я пытаюсь провести анализ текста с использованием пакета TM в г. Я в системе Windows. Я создал простую функцию для преобразования существительных во множественном числе в единый формат. пожалуйста, смотрите прикрепленный для кода. to_single<-func…

r tm text-analysis

26 июн '17 в 19:56

2 ответа

Источники секретных данных о настроениях?

Я хочу обучить наивного Байеса новым источникам данных, которые раньше не использовались. Я уже посмотрел на корпус Lee & Pang обзоров IMDB и корпус мнений MPQA. Я ищу новые веб-сервисы, которые соответствуют следующим критериям. Легко классифицируе…

machine-learning nlp sentiment-analysis training-data text-analysis

15 фев '12 в 05:58

1 ответ

Строка по частоте каждого слова в URL в R

Я очень новичок в программировании и мне нужна помощь в программировании на R для моего университетского проекта. Я хочу создать таблицу с частотой каждого слова. Входной файл содержит около 70000 строк данных, таких как идентификаторы и webURL, кот…

r machine-learning web-scraping text-analysis

10 сен '16 в 14:17