Группировка текстов в ведра в R
Мы работаем над опросом, в котором у нас есть несколько открытых ответов, состоящих из числовых / категориальных ответов. До сих пор мы использовали ручную классификацию этих текстов на 10-15 сегментов, чтобы маркетинговая команда могла принять меры. Например. Если респондента спросят, какие еще функции он хочет использовать в конкретном планшете, который он использует, мы сгруппируем его ответы в такие сегменты, как "Улучшенные функции безопасности", "Лучшая поддержка" и т. д.
Вместо того, чтобы делать это вручную, я автоматизирую это, создавая индивидуальные логистические регрессии /CART/ уравнения случайных лесов для каждого сегмента. Например, для одного ведра 1 используйте код
model1=glm(Better.support~.,data=verbatimSparse,family=binomial)
verbatim$predict1=predict(model1,type="response")
Я строю еще 12 таких моделей, и каждый ответ будет сгруппирован в корзину, где прогнозируемая вероятность самая высокая. Это в какой-то мере служит моей цели, но с точностью составляет всего около 80%. Есть ли другой метод для лучшей классификации текст.