Описание тега quanteda
кванта
Пакет quanteda, написанный Кеннетом Бенуа и Полом Налти, предоставляет быстрый и гибкий набор инструментов для управления, обработки и количественного анализа текстовых данных в R.
Quanteda упрощает управление текстами в форме корпуса, определяемого как набор текстов, который включает переменные уровня документа, специфичные для каждого текста, а также метаданные для документов и для коллекции в целом. quanteda включает в себя инструменты, позволяющие легко и быстро обрабатывать тексты в корпусе, например, путем их токенизации, с или без стоп-слов или корней, или для их сегментации по предложениям или абзацам.
quanteda тщательно разработана для работы с кодировками Unicode и UTF-8 и основана на stringi
пакет, который, в свою очередь, основан на библиотеках ICU.
Quanteda реализует методы начальной загрузки для текстов, которые упрощают повторную выборку текстов из заранее определенных единиц, чтобы облегчить вычисление доверительных интервалов для текстовой статистики с использованием методов непараметрической начальной загрузки, но применяемых к исходным текстам как данным. quanteda включает набор сложных инструментов для извлечения характеристик текстов в количественную матрицу, где эти функции могут быть определены в соответствии со словарем или тезаурусом, включая объявление словосочетаний, которые будут рассматриваться как отдельные элементы.
После преобразования в количественную матрицу (известную как "dfm" для матрицы характеристик документа) текстовую функцию можно анализировать с помощью количественных методов для описания, сравнения или масштабирования текстов или использовать для обучения методам машинного обучения для прогнозирования класса.
Ресурсы
Исходный код на GitHub (включая последнюю версию в
dev
ветвь)