Автоматическая классификация документов с помощью Python: статьи об играх сортируются в Sports

У меня есть около 500 предварительно классифицированных статей. Я взял наиболее часто используемые существительные и прилагательные для каждой категории и отсортировал их по релевантности.

С каждой категорией (мир, бизнес, технологии, развлечения, наука, здоровье, спорт) связано несколько сотен слов.

У меня возникли проблемы с этой статьей: http://www.techhive.com/article/2052311/hands-on-with-the-2ds-an-entry-level-investment.html

Речь идет об играх. Такие слова, как "игра, игрок и т. Д." Тесно связаны со спортом, основываясь на статьях, на которые я смотрел.

Эта статья оценивает следующее:

{u'business': 51, u'entertainment': 58, u'science': 48, u'sports': 62, u'health': 35, u'world': 48, u'technology': 59}

Как вы можете видеть, технология стоит на первом месте в 59 лет, но превосходит спорт на 62.

Я надеюсь, что если я увеличу свой корпус до нескольких тысяч статей, эта проблема будет решена, но я не знаю, вероятно ли это.

Каковы ваши идеи по решению этой проблемы?

Я думал о том, чтобы иметь список бесплатных слов, таких как "Twitter, Facebook, Technology, Nintendo и т. Д.", Которые автоматически объединят статью в Technology, если они будут присутствовать. Единственная проблема - найти слова для этого, а также избежать столкновений с бизнесом / миром и т. Д.

Благодарю.

1 ответ

Категория игр должна размыться охотой, военной перепиской, ручными и бумажными ролевыми играми... - Все, что имеет игровую версию.

Я думаю, что вы хотите отличить факты от вымысла. Идея, которую я извлек из предложенной вами, заключается в том, чтобы взять секцию художественной литературы и секцию фактов библиотеки и сократить их до короткого списка и длинного списка ключевых слов.

ed: это то, что я только что обнаружил, но типичный пример "привет мира", который является анализом частоты слов, из структуры сокращения карт, такой как Disco, должен позволить вам просто указать на набор URL-адресов, которые, как вы знаете, либо факт или вымысел. У вас должно быть два списка кортежей, а затем вы можете отфильтровать их по ключевым словам, которые наверняка говорят о фактах или вымыслах.

Другие вопросы по тегам