Описание тега quanteda

Пакет quanteda предоставляет быстрый и гибкий набор инструментов для управления, обработки и количественного анализа текстовых данных в R.

кванта

Пакет quanteda, написанный Кеннетом Бенуа и Полом Налти, предоставляет быстрый и гибкий набор инструментов для управления, обработки и количественного анализа текстовых данных в R.

Quanteda упрощает управление текстами в форме корпуса, определяемого как набор текстов, который включает переменные уровня документа, специфичные для каждого текста, а также метаданные для документов и для коллекции в целом. quanteda включает в себя инструменты, позволяющие легко и быстро обрабатывать тексты в корпусе, например, путем их токенизации, с или без стоп-слов или корней, или для их сегментации по предложениям или абзацам.

quanteda тщательно разработана для работы с кодировками Unicode и UTF-8 и основана на stringi пакет, который, в свою очередь, основан на библиотеках ICU.

Quanteda реализует методы начальной загрузки для текстов, которые упрощают повторную выборку текстов из заранее определенных единиц, чтобы облегчить вычисление доверительных интервалов для текстовой статистики с использованием методов непараметрической начальной загрузки, но применяемых к исходным текстам как данным. quanteda включает набор сложных инструментов для извлечения характеристик текстов в количественную матрицу, где эти функции могут быть определены в соответствии со словарем или тезаурусом, включая объявление словосочетаний, которые будут рассматриваться как отдельные элементы.

После преобразования в количественную матрицу (известную как "dfm" для матрицы характеристик документа) текстовую функцию можно анализировать с помощью количественных методов для описания, сравнения или масштабирования текстов или использовать для обучения методам машинного обучения для прогнозирования класса.

Ресурсы