Что такое функция getText в текстовом майнинге? Откуда это взялось? [р]
Я следую примеру майнинга текста из Social Media Mining с R от Натана Даннермана и Ричарда Хейманна: Книга. После вытащить твиты с помощью searchTwitter
функция, которую использует автор sapply
на list
чтобы извлечь текстовую часть следующим образом:
rstats <- searchTwitter("#rstats", n = 1000)
rstats_list <- sapply(rstats, function (x) x$getText())
Это аккуратно делает символьный вектор только с частью текста из твитов. Что такое getText()? Я нигде ничего не могу найти - автор недостаточно объяснил. Я посмотрел на tm
пакетная документация - ничего! Я искал вопросы, связанные с этим в SO - Получение текста из твитов Ответчик задает тот же вопрос, что и я. В Inside-R я нашел это: http://www.inside-r.org/r-doc/base/gettext но это не то же самое, что getText
, Может кто-нибудь объяснить, что мне не хватает?
3 ответа
getText - это метод доступа к классу "status", как описано здесь: http://www.inside-r.org/howto/mining-twitter-airline-consumer-sentiment.
Извините за не разъяснение в тексте, Натан Даннеман
После того, как вы создали список "rstats", и если вы проверите его по значениям в среде (в RStudio), он отображает каждый твит вместе со всей соответствующей информацией каждого отдельного твита и отображает некоторые методы доступа под каждым из них. Вы можете проверить getText() для получения только текстового содержимого каждого твита.
getText()
использование функции для извлечения текстового содержимого твитов
Опыт:
rstats <- searchTwitter("#rstats", n = 1000)
rstats[[1]]$$getText()
использовать библиотеку twitteR для обработки данных твитов.
некоторые используют полную функцию для обработки твитов:
getScreenName(), getId(), getCreated()