Описание тега text-classification
Simply stating, text classification is all about putting a piece of text into a set of (mostly predefined) categories. This is one of the most important problems which occurs in many real world applications. For example one example of text classification would be an automated call centre which would like to categorise the complaints automatically into the most appropriate bucket of problems.
0
ответов
Полиномиальное скользящее окно наивного байесовского классификатора (реализация MOA, weka)
Я сталкиваюсь со следующей проблемой: я пытаюсь реализовать классификатор MNB в скользящем окне. Я реализовал LinkedList размера окна и храню все экземпляры потока, которые должны быть рассмотрены в нем. Когда появляется новый экземпляр, который бол…
04 июн '15 в 12:46
2
ответа
Scikit-Learn использование памяти классификации текста из ядра
Я пытаюсь использовать scikit-learn для классификации большого количества текстовых документов, хотя я использую неосновную функциональность (с SGDClassifier а также HashingVectorizer) программа, кажется, потребляет много оперативной памяти (>10 ГБ)…
14 мар '17 в 15:33
2
ответа
Точность ниже 50% для бинарной классификации
Я тренирую наивный байесовский классификатор на сбалансированном наборе данных с равным количеством положительных и отрицательных примеров. Во время тестирования я поочередно вычисляю точность для примеров в положительном классе, отрицательном класс…
03 май '18 в 14:33
1
ответ
Неверный тип (символ) аргумента
Это сообщение об ошибке по теме. Я получаю эту ошибку при попытке запустить классификатор naive.bayes. Вот краткая информация о моих поездах: 'data.frame': 7269 obs. of 193 variables: $ pid : int 2 4 5 7 10 11 14 18 25 31 ... $ acquir : int 0 0 0 0 …
15 апр '16 в 07:12
1
ответ
Нужна помощь в применении scikit-learn к этой несбалансированной задаче категоризации текста
У меня многоклассовая проблема классификации / категоризации текста. У меня есть набор наземных данных правды с K разные взаимоисключающие классы. Это несбалансированная проблема в двух отношениях. Во-первых, некоторые занятия намного чаще, чем друг…
16 окт '15 в 13:51
2
ответа
Поиск сетки параметров с различными наборами текста для создания словаря и перекрестной проверки
Я должен обучить классификатор для обнаружения спама. Набор данных, который у меня есть. Под рукой у меня есть один помеченный набор данных электронных писем с [text, class], И у меня также есть много электронных писем без ярлыков классов. Что я хоч…
20 фев '15 в 09:22
1
ответ
Сюжетная модель SVM в R -текстовой классификации
Я использую модель SVM из e1017 в R. Я использовал SVM для анализа и классификации текста. Таким образом, мои данные - dtm(матрица терминов документа, полученная из корпуса документов). Как я могу построить свою модель SVM? Ниже моя модель SVM, кото…
12 ноя '14 в 21:40
1
ответ
Как преобразовать нграммы и частоты слов в строке в векторы для построения моделей SVN
Я пытаюсь использовать Python и NLTK для классификации текста по текстовым строкам, длина которых обычно составляет в среднем 10-20 слов. Я хочу вычислить частоты слов и ngrams размера 2-4 и каким-то образом преобразовать их в векторы и использовать…
31 мар '18 в 22:33
0
ответов
RTextTools после LSA
Я использую библиотеку LSA в R и создаю TermDocumentMatrix после проекции lsa. Однако для классификации с использованием библиотеки RTextTools для моего TermDocumentMatrix выдается следующая ошибка: container <- create_container(t(projected_train…
05 авг '16 в 12:53
1
ответ
Встраивание слов как функции для классификации
В отношении классификации текста, в настоящее время общепринятым подходом является объединение (часто сумма или среднее) встраивание слов и использование результирующего вектора в качестве признаков. Существуют ли какие-либо справочные документы, ко…
06 мар '18 в 08:27
1
ответ
Схема классификации текста для задачи классификации с 120 классами
У меня есть около 15 тыс. Текстовых экземпляров, которые вручную подразделяются на одну из 120 категорий. Текстовые фрагменты являются электронными письмами от клиентов. Частота занятий варьируется от 1 до 2000. Я хотел бы обучить классификатор на э…
04 июн '14 в 06:18
1
ответ
Сопоставление нескольких слов среди строк и создание матрицы для отображения ответа
У меня есть файл с 5 отзывами. Следующее: text <- c("Orange is the new black", " I love smoking Marlboro black", "I love oranges before they go black", "My diary is black, so is my hair", "Is it okay to drink and smoke black") Теперь я хочу сдела…
13 июн '18 в 13:47
1
ответ
В чем разница между CountVectorizer и CharNGramAnalyzer в scikit-learn?
У меня путаница между CountVectorizer и CharNGramAnalyzer. Согласно моему пониманию, CountVectorizer строит матрицу подсчета, где строки - это числа вхождений разных слов с учетом большой размерности. CharNGramAnalyzer создает матрицу подсчета, в ко…
06 окт '17 в 08:29
0
ответов
Вывод Doc2vec: получить наиболее похожие результаты для всех данных
У меня есть 120 строк текстовых (предложений) данных, чтобы сгруппировать или классифицировать их. Используя doc2vec в Gensim, я создал модель в соответствии с приведенным ниже кодом: model = gensim.models.doc2vec.Doc2Vec(size=50, min_count=2, iter=…
04 окт '17 в 10:20
1
ответ
Уменьшение размера при фильтрации спама
Я выполняю эксперимент, в котором мне нужно сравнить производительность классификации нескольких алгоритмов классификации для фильтрации спама, а именно. Наивный Байес, SVM, J48, k-NN, RandomForests и т. Д. Я использую инструмент интеллектуального а…
09 апр '14 в 10:38
1
ответ
Почему результаты классификации Tensorflow tf.learn сильно различаются?
Я использую высокоуровневый API TensorFlow tf.learn обучать и оценивать классификатор DNN для серии классификаций двоичного текста (на самом деле мне нужна классификация по нескольким меткам, но в настоящий момент я проверяю каждую метку отдельно). …
10 сен '16 в 18:31
0
ответов
Классификация текста в R
Привет у меня есть набор данных, где агент центра обработки вызовов набирает комментарии против идентификатора клиента. Мы должны классифицировать эти комментарии по различным категориям на основе общих слов в них. Например, "клиент хочет возмещение…
31 мар '17 в 03:43
0
ответов
Пытаясь иметь мои данные обучения и тестирования, чтобы иметь форму п,1
X_train, X_test, Y_train, Y_test =\ train_test_split(shuffled_df.sentence_clean,shuffled_df.pol,test_size = 0.30,random_state=42) tfidf1 = TfidfVectorizer(min_df=0.008, max_df=0.1) #using tfidf to extract features as x_traincv = tfidf1.fit_transform…
02 мар '19 в 23:07
1
ответ
Керас: классификация твитов
Здравствуйте уважаемые участники форума, У меня есть набор данных из 20 миллионов случайно собранных отдельных твитов (нет двух твитов с одного аккаунта). Позвольте мне сослаться на этот набор данных как "общий" набор данных. Кроме того, у меня есть…
14 ноя '18 в 18:29
0
ответов
НЛП Алгоритм вычисления urgency_intensity для фрагмента текста
Я хочу рассчитать оценку срочности для фрагмента текста, как SentiWordnet предоставляет оценки для слов для полярности настроения. Я хочу пометить текст как Высокий, Средний или Низкий в зависимости от того, насколько срочен запрос. Кажется, классиф…
13 окт '16 в 10:15