Описание тега tm
Источник : http://tm.r-forge.r-project.org/
tm - Пакет интеллектуального анализа текста
tm (сокращение от Text Mining Infrastructure в R) обеспечивает основу для приложений интеллектуального анализа текста в R.
Пакет tm предлагает функциональные возможности для управления текстовыми документами, абстрагирует процесс обработки документов и упрощает использование разнородных текстовых форматов в R. Пакет имеет встроенную внутреннюю поддержку базы данных для минимизации требований к памяти. Для коллекций текстовых документов реализовано расширенное управление метаданными, чтобы облегчить использование больших наборов документов, обогащенных метаданными.
Пакет обеспечивает встроенную поддержку чтения в нескольких классических форматах файлов (например, в виде обычного текста, файлов PDF или XML). Существует также механизм подключаемых модулей для обработки дополнительных форматов файлов.
Структуры данных и алгоритмы могут быть расширены в соответствии с индивидуальными требованиями, поскольку пакет разработан по модульному принципу, что позволяет легко интегрировать новые форматы файлов, средства чтения, преобразования и операции фильтрации.
tm обеспечивает легкий доступ к механизмам предварительной обработки и манипуляции, таким как удаление пробелов, выделение текста или удаление стоп-слов. Кроме того, доступна общая архитектура фильтров для фильтрации документов по определенным критериям или выполнения полнотекстового поиска. Пакет поддерживает экспорт из коллекций документов в матрицы термодокументов.
tm находится в свободном доступе под Стандартной общественной лицензией GNU (GPL).
Ресурсы:
- Страница сводки CRAN
- Страница проекта R-Forge
- Вопросы-Ответы
- Инго Файнерер, Курт Хорник и Дэвид Мейер. Текст горнодобывающей инфраструктуры в R. Журнал статистического программного обеспечения, 25(5):1-54, март 2008 г.