Прогнозирование непрерывной переменной с использованием текста в R

У меня есть задача, в которой мне нужно предсказать показания одометра с непрерывной переменной на основе текстового поля, в котором есть проблемы, с которыми сталкивается клиент. Это поле не является выпадающим меню, но оно обновляется с использованием слов клиента. Поэтому мне нужно прогнозировать показания одометра на основе текстового поля, с которым сталкиваются клиенты. Например:

**Text**                     **Odometer Reading**
Clutch problem               20,000 
Axle Issue                   150,000

Редактировать:

Я строю линейную модель, используя униграмму. Но я получаю это предупреждение, когда выполняю предварительную обработку данных:

> corp <- Corpus(VectorSource(ISSUES$CUSTOMER_VOICE))
> 
> corp <- tm_map(corp,tolower)
Warning message:
In tm_map.SimpleCorpus(corp, tolower) : transformation drops documents
> corp <- tm_map(corp,removePunctuation)
Warning message:
In tm_map.SimpleCorpus(corp, removePunctuation) :
transformation drops documents
> corp <- tm_map(corp,removeWords,stopwords('english'))
Warning message:
In tm_map.SimpleCorpus(corp, removeWords, stopwords("english")) :
transformation drops documents
> corp <- tm_map(corp,stemDocument)
Warning message:
In tm_map.SimpleCorpus(corp, stemDocument) : transformation drops documents

Может кто-нибудь, пожалуйста, скажите мне, как исправить это предупреждение.

1 ответ

Это всего лишь один из способов, но это может быть неоптимальным решением для столбца Текст, сделайте textminig, чтобы получить униграммы и биграммы, а затем преобразовать их в матрицу DTM и затем использовать любую линейную модель для прогнозирования показаний одометра.

Я надеюсь, что это может решить вашу проблему

Другие вопросы по тегам