Описание тега document-classification
Классификация документов - это процесс отнесения документов из заданного набора документов к любому из ряда классов, где эти классы известны априори.
1
ответ
Определение определенных частей документа с использованием CRF
Моей целью является набор документов (в основном в финансовой сфере), нам необходимо определить его отдельные части, такие как название компании или тип документа и т. Д. Предполагается, что обучение будет проводиться на нескольких сотнях документов…
07 июн '17 в 16:31
1
ответ
Неверный тип (символ) аргумента
Это сообщение об ошибке по теме. Я получаю эту ошибку при попытке запустить классификатор naive.bayes. Вот краткая информация о моих поездах: 'data.frame': 7269 obs. of 193 variables: $ pid : int 2 4 5 7 10 11 14 18 25 31 ... $ acquir : int 0 0 0 0 …
15 апр '16 в 07:12
6
ответов
Предложения по настроению
Давайте начнем с простой проблемы. Допустим, у меня есть предложение в 350 символов, и я хотел бы поместить это предложение в корзину "Хорошего настроения" или "Плохое настроение". Каков наилучший способ разработать алгоритм для объединения предложе…
29 июл '11 в 08:00
3
ответа
Классификация научных работ по названию.
Дорогие все, я работаю над проектом, в котором я должен классифицировать исследовательские работы в соответствующих областях, используя названия статей. Например, если где-то в названии присутствует фраза "компьютерная сеть", то этот документ должен…
20 мар '14 в 19:44
0
ответов
Вывод Doc2vec: получить наиболее похожие результаты для всех данных
У меня есть 120 строк текстовых (предложений) данных, чтобы сгруппировать или классифицировать их. Используя doc2vec в Gensim, я создал модель в соответствии с приведенным ниже кодом: model = gensim.models.doc2vec.Doc2Vec(size=50, min_count=2, iter=…
04 окт '17 в 10:20
0
ответов
Разработка классификатора документа для категоризации изображений в набор заранее определенных категорий
Мое требование состоит в том, чтобы классифицировать изображения на 7 заранее определенных категорий (Люди, Животные, Вечеринки / События, Природа, Еда, Спорт, Искусство) Я использовал изображения, относящиеся к каждой категории, и пометил их 50 сло…
08 фев '19 в 10:15
2
ответа
Какой алгоритм классификации следует использовать для классификации документов с этими переменными?
Я пытаюсь классифицировать страницы, в частности поиск страницы, в документах, основанных на сумме слов, макете страницы, содержать таблицы или нет, имеет жирные заголовки и т. Д. С этой предпосылкой я создал pandas.DataFrame вот так, для каждого до…
19 окт '17 в 10:44
2
ответа
Лучший алгоритм классификации текстовых документов
Я хотел бы знать лучшие доступные алгоритмы для классификации текста. Я хочу классифицировать документ на основе спорта, банка, технологий и т. Д. Пожалуйста, предложите хорошие алгоритмы для получения максимальной точности.
17 авг '15 в 17:31
1
ответ
Использование NLTK для классификации документов по вопросам содержания веб-сайтов с BeautifulSoup и NaiveBayes
У меня есть проект на Python 2.7, в котором я хочу классифицировать сайты по их содержанию. У меня есть база данных, в которой я размещаю многочисленные URL веб-сайтов и связанные с ними категории. Есть много категорий (= ярлыки), и я хочу классифиц…
05 дек '14 в 15:21
1
ответ
MAXENT модель в R для классификации
Я пытаюсь классифицировать текст с помощью RTextTools пакет с использованием R. Я сделал это с помощью - SVM (и приведенный ниже код работает отлично:) matrix[[i]] <- create_matrix(trainingdata[[i]][,1], language="english",removeNumbers=FALSE, st…
08 май '14 в 05:01
4
ответа
Классификация документов с использованием наивного байеса в питоне
Я делаю проект по классификации документов с использованием наивного байесовского классификатора в Python. Я использовал для этого модуль Python nltk. Документы взяты из набора данных Reuters. Я выполнил этапы предварительной обработки, такие как ус…
09 май '12 в 12:17
0
ответов
RNN с последующим объединением слоя в тензор потока
Я пытаюсь реализовать этот подход классификации документов, где идея заключается в объединении выходной последовательности RNN. Они пытаются ускорить обучение, разбивая документ на сегменты по 50 или 100 слов, вычисляя выходной сигнал RNN каждой отб…
19 ноя '18 в 08:24
1
ответ
Каков эффект использования фильтрованного классификатора над обычным классификатором в Weka?
Я использовал weka для классификации текста. Сначала я использовал фильтр StringToWordVector, а отфильтрованные данные использовались с классификатором SVM (LibSVM) для перекрестной проверки. Позже я прочитал пост в блоге здесь Он сказал, что не рек…
09 ноя '14 в 02:51
0
ответов
Вызов в LaTeX
Есть ли какой-нибудь класс документов, чтобы написать повестку в LaTeX? Documentclass Letter неуместен, так как не позволяет писать две колонки в начале письма рядом друг с другом.
25 май '14 в 18:03
1
ответ
Двоичная классификация датированных документов с сезонной вариацией класса
У меня есть коллекция обучающих документов с датами публикации, где каждый документ помечен как принадлежащий (или нет) к какой-либо теме T. Я хочу обучить модель, которая будет предсказывать для нового документа (с датой публикации), принадлежит ли…
12 июл '14 в 03:29
1
ответ
Мешок слов с массивом json
Я пытаюсь следовать этому уроку, чтобы создать собственный пакет слов. from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'All my cats in a row', 'When my cat sits down, she looks like a Furby toy!', 'The cat from outer space', '…
15 фев '18 в 11:20
3
ответа
Правильно ли использовать tf-idf для задачи классификации, такой как задача анализа настроений?
Я часто вижу, как люди используют векторизацию tf-idf в задачах классификации текста, таких как анализ настроений. Насколько я понимаю, он штрафует количество слов, которые встречаются во многих документах (обратная частота). Часто мы игнорируем сло…
03 ноя '15 в 23:18
1
ответ
Mahout Наивный Байес CSV Классификация
У меня есть эти 2 файла CSV: Поезд-set.csv Тест-set.csv Они оба находятся в одной структуре (с разным содержанием) и похожи на этот пример: Каждый столбец является функцией, а последний столбец - class, это имя класса для прогнозирования. , Может ли…
01 май '14 в 16:04
1
ответ
Автоматическая классификация документов с помощью Python: статьи об играх сортируются в Sports
У меня есть около 500 предварительно классифицированных статей. Я взял наиболее часто используемые существительные и прилагательные для каждой категории и отсортировал их по релевантности. С каждой категорией (мир, бизнес, технологии, развлечения, н…
06 окт '13 в 20:31
1
ответ
Формат файла модели Libsvm Нет номера модели
Я использую libsvm для классификации документов. Я использую svm.cc и svm.h в моем проекте. Затем я вызываю svm_train. Я сохраняю модель в файле, используя svm_save_model. У меня есть категории. Файл модели SVM: svm_type c_svc kernel_type rbf gamma …
14 авг '13 в 05:21