Можно ли установить весы для признаков при классификации с использованием наивного байесовского метода в Spark?
В моем приложении Spark я использую NaiveBayesModel для классификации текстовых документов. Допустим, моя модель выглядит так:
class SomeDocument {
String text;
String lead;
}
Мой текущий подход состоит в том, чтобы маркировать весь документ, включая text
а также lead
и относиться к каждому жетону как к черте. Это не соответствует бизнес-правилам, которые требуют lead
быть более важным в классификации, чем text
, Другими словами, мне нужно установить вес для токена, и значение веса должно зависеть от источника (lead
из text
).
Я тренирую свою модель, используя метод NaiveBayes.train
,
Вопрос: Как я могу установить весы для черт?