Описание тега document-classification

Классификация документов - это процесс отнесения документов из заданного набора документов к любому из ряда классов, где эти классы известны априори.
1 ответ

Определение определенных частей документа с использованием CRF

Моей целью является набор документов (в основном в финансовой сфере), нам необходимо определить его отдельные части, такие как название компании или тип документа и т. Д. Предполагается, что обучение будет проводиться на нескольких сотнях документов…
1 ответ

Неверный тип (символ) аргумента

Это сообщение об ошибке по теме. Я получаю эту ошибку при попытке запустить классификатор naive.bayes. Вот краткая информация о моих поездах: 'data.frame': 7269 obs. of 193 variables: $ pid : int 2 4 5 7 10 11 14 18 25 31 ... $ acquir : int 0 0 0 0 …
6 ответов

Предложения по настроению

Давайте начнем с простой проблемы. Допустим, у меня есть предложение в 350 символов, и я хотел бы поместить это предложение в корзину "Хорошего настроения" или "Плохое настроение". Каков наилучший способ разработать алгоритм для объединения предложе…
3 ответа

Классификация научных работ по названию.

Дорогие все, я работаю над проектом, в котором я должен классифицировать исследовательские работы в соответствующих областях, используя названия статей. Например, если где-то в названии присутствует фраза "компьютерная сеть", то этот документ должен…
20 мар '14 в 19:44
0 ответов

Вывод Doc2vec: получить наиболее похожие результаты для всех данных

У меня есть 120 строк текстовых (предложений) данных, чтобы сгруппировать или классифицировать их. Используя doc2vec в Gensim, я создал модель в соответствии с приведенным ниже кодом: model = gensim.models.doc2vec.Doc2Vec(size=50, min_count=2, iter=…
0 ответов

Разработка классификатора документа для категоризации изображений в набор заранее определенных категорий

Мое требование состоит в том, чтобы классифицировать изображения на 7 заранее определенных категорий (Люди, Животные, Вечеринки / События, Природа, Еда, Спорт, Искусство) Я использовал изображения, относящиеся к каждой категории, и пометил их 50 сло…
2 ответа

Какой алгоритм классификации следует использовать для классификации документов с этими переменными?

Я пытаюсь классифицировать страницы, в частности поиск страницы, в документах, основанных на сумме слов, макете страницы, содержать таблицы или нет, имеет жирные заголовки и т. Д. С этой предпосылкой я создал pandas.DataFrame вот так, для каждого до…
2 ответа

Лучший алгоритм классификации текстовых документов

Я хотел бы знать лучшие доступные алгоритмы для классификации текста. Я хочу классифицировать документ на основе спорта, банка, технологий и т. Д. Пожалуйста, предложите хорошие алгоритмы для получения максимальной точности.
1 ответ

Использование NLTK для классификации документов по вопросам содержания веб-сайтов с BeautifulSoup и NaiveBayes

У меня есть проект на Python 2.7, в котором я хочу классифицировать сайты по их содержанию. У меня есть база данных, в которой я размещаю многочисленные URL веб-сайтов и связанные с ними категории. Есть много категорий (= ярлыки), и я хочу классифиц…
1 ответ

MAXENT модель в R для классификации

Я пытаюсь классифицировать текст с помощью RTextTools пакет с использованием R. Я сделал это с помощью - SVM (и приведенный ниже код работает отлично:) matrix[[i]] <- create_matrix(trainingdata[[i]][,1], language="english",removeNumbers=FALSE, st…
08 май '14 в 05:01
4 ответа

Классификация документов с использованием наивного байеса в питоне

Я делаю проект по классификации документов с использованием наивного байесовского классификатора в Python. Я использовал для этого модуль Python nltk. Документы взяты из набора данных Reuters. Я выполнил этапы предварительной обработки, такие как ус…
09 май '12 в 12:17
0 ответов

RNN с последующим объединением слоя в тензор потока

Я пытаюсь реализовать этот подход классификации документов, где идея заключается в объединении выходной последовательности RNN. Они пытаются ускорить обучение, разбивая документ на сегменты по 50 или 100 слов, вычисляя выходной сигнал RNN каждой отб…
1 ответ

Каков эффект использования фильтрованного классификатора над обычным классификатором в Weka?

Я использовал weka для классификации текста. Сначала я использовал фильтр StringToWordVector, а отфильтрованные данные использовались с классификатором SVM (LibSVM) для перекрестной проверки. Позже я прочитал пост в блоге здесь Он сказал, что не рек…
09 ноя '14 в 02:51
0 ответов

Вызов в LaTeX

Есть ли какой-нибудь класс документов, чтобы написать повестку в LaTeX? Documentclass Letter неуместен, так как не позволяет писать две колонки в начале письма рядом друг с другом.
25 май '14 в 18:03
1 ответ

Двоичная классификация датированных документов с сезонной вариацией класса

У меня есть коллекция обучающих документов с датами публикации, где каждый документ помечен как принадлежащий (или нет) к какой-либо теме T. Я хочу обучить модель, которая будет предсказывать для нового документа (с датой публикации), принадлежит ли…
1 ответ

Мешок слов с массивом json

Я пытаюсь следовать этому уроку, чтобы создать собственный пакет слов. from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'All my cats in a row', 'When my cat sits down, she looks like a Furby toy!', 'The cat from outer space', '…
3 ответа

Правильно ли использовать tf-idf для задачи классификации, такой как задача анализа настроений?

Я часто вижу, как люди используют векторизацию tf-idf в задачах классификации текста, таких как анализ настроений. Насколько я понимаю, он штрафует количество слов, которые встречаются во многих документах (обратная частота). Часто мы игнорируем сло…
03 ноя '15 в 23:18
1 ответ

Mahout Наивный Байес CSV Классификация

У меня есть эти 2 файла CSV: Поезд-set.csv Тест-set.csv Они оба находятся в одной структуре (с разным содержанием) и похожи на этот пример: Каждый столбец является функцией, а последний столбец - class, это имя класса для прогнозирования. , Может ли…
01 май '14 в 16:04
1 ответ

Автоматическая классификация документов с помощью Python: статьи об играх сортируются в Sports

У меня есть около 500 предварительно классифицированных статей. Я взял наиболее часто используемые существительные и прилагательные для каждой категории и отсортировал их по релевантности. С каждой категорией (мир, бизнес, технологии, развлечения, н…
06 окт '13 в 20:31
1 ответ

Формат файла модели Libsvm Нет номера модели

Я использую libsvm для классификации документов. Я использую svm.cc и svm.h в моем проекте. Затем я вызываю svm_train. Я сохраняю модель в файле, используя svm_save_model. У меня есть категории. Файл модели SVM: svm_type c_svc kernel_type rbf gamma …