Пакет tm (сокращение от Text Mining Infrastructure в R) обеспечивает основу для приложений интеллектуального анализа текста в R.

Источник : http://tm.r-forge.r-project.org/

tm - Пакет интеллектуального анализа текста

tm (сокращение от Text Mining Infrastructure в R) обеспечивает основу для приложений интеллектуального анализа текста в R.

Пакет tm предлагает функциональные возможности для управления текстовыми документами, абстрагирует процесс обработки документов и упрощает использование разнородных текстовых форматов в R. Пакет имеет встроенную внутреннюю поддержку базы данных для минимизации требований к памяти. Для коллекций текстовых документов реализовано расширенное управление метаданными, чтобы облегчить использование больших наборов документов, обогащенных метаданными.

Пакет обеспечивает встроенную поддержку чтения в нескольких классических форматах файлов (например, в виде обычного текста, файлов PDF или XML). Существует также механизм подключаемых модулей для обработки дополнительных форматов файлов.

Структуры данных и алгоритмы могут быть расширены в соответствии с индивидуальными требованиями, поскольку пакет разработан по модульному принципу, что позволяет легко интегрировать новые форматы файлов, средства чтения, преобразования и операции фильтрации.

tm обеспечивает легкий доступ к механизмам предварительной обработки и манипуляции, таким как удаление пробелов, выделение текста или удаление стоп-слов. Кроме того, доступна общая архитектура фильтров для фильтрации документов по определенным критериям или выполнения полнотекстового поиска. Пакет поддерживает экспорт из коллекций документов в матрицы термодокументов.

tm находится в свободном доступе под Стандартной общественной лицензией GNU (GPL).

Ресурсы: