Прогнозирование непрерывной переменной с использованием текста в R
У меня есть задача, в которой мне нужно предсказать показания одометра с непрерывной переменной на основе текстового поля, в котором есть проблемы, с которыми сталкивается клиент. Это поле не является выпадающим меню, но оно обновляется с использованием слов клиента. Поэтому мне нужно прогнозировать показания одометра на основе текстового поля, с которым сталкиваются клиенты. Например:
**Text** **Odometer Reading**
Clutch problem 20,000
Axle Issue 150,000
Редактировать:
Я строю линейную модель, используя униграмму. Но я получаю это предупреждение, когда выполняю предварительную обработку данных:
> corp <- Corpus(VectorSource(ISSUES$CUSTOMER_VOICE))
>
> corp <- tm_map(corp,tolower)
Warning message:
In tm_map.SimpleCorpus(corp, tolower) : transformation drops documents
> corp <- tm_map(corp,removePunctuation)
Warning message:
In tm_map.SimpleCorpus(corp, removePunctuation) :
transformation drops documents
> corp <- tm_map(corp,removeWords,stopwords('english'))
Warning message:
In tm_map.SimpleCorpus(corp, removeWords, stopwords("english")) :
transformation drops documents
> corp <- tm_map(corp,stemDocument)
Warning message:
In tm_map.SimpleCorpus(corp, stemDocument) : transformation drops documents
Может кто-нибудь, пожалуйста, скажите мне, как исправить это предупреждение.
1 ответ
Это всего лишь один из способов, но это может быть неоптимальным решением для столбца Текст, сделайте textminig, чтобы получить униграммы и биграммы, а затем преобразовать их в матрицу DTM и затем использовать любую линейную модель для прогнозирования показаний одометра.
Я надеюсь, что это может решить вашу проблему