Weka - Как найти формат ввода для классификаторов
Я использую Weka в Java-программе для классификации некоторых текстовых документов, и она хорошо работает с классификатором NaiveBayesMultinomial.
Однако я не могу найти никакой документации о том, как я могу отфильтровать мои Экземпляры (или файл ARFF), чтобы они могли быть приняты в качестве входных данных другими классификаторами. Если я загружаю ARFF в графический интерфейс Weka Explorer, то большинство классификаторов неактивны. Использование фильтра StringToWordVector не влияет на это, и я попробовал также несколько других.
Может кто-нибудь сказать мне, как я могу подготовить свои данные, чтобы они могли быть приняты другими классификаторами, например, NaiveBayes, JRip или BayesNet?
1 ответ
В графическом интерфейсе WEKA Explorer при применении StringToWordVector прежний атрибут класса чаще всего перемещается в качестве первого атрибута, поэтому по умолчанию он не определяется как класс. Когда вы находитесь на вкладке Классифицировать, убедитесь, что в качестве класса для вашего эксперимента выбран правильный атрибут.
Другим потенциальным источником проблем является то, что класс является числовым, что препятствует применению некоторых алгоритмов (которые ожидают номинальный класс).
Если это не решит вашу проблему, пожалуйста, опубликуйте отрывок из вашего файла ARFF (извлечение заголовка плюс один экземпляр), чтобы мы могли предоставить более точные рекомендации.