Описание тега textacy
Справочный сайт: https://textacy.readthedocs.io/en/stable/
Характеристики
- Потоковая передача двоичных данных текста, json, csv и spaCy на диск и с диска
- Очистите и нормализуйте необработанный текст перед его анализом
- Изучите множество включенных наборов данных с текстовыми данными и метаданными
- от выступлений в Конгрессе до исторической литературы и комментариев Reddit
- Доступ и фильтрация основных языковых элементов, таких как слова и нграммы, фрагменты существительных и предложения
- Извлечение именованных сущностей, сокращений и их определений, прямых цитат, ключевых терминов и т. Д. Из документов
- Сравнивайте строки, наборы и документы по множеству показателей сходства
- Преобразование документов и корпусов в векторизованные и семантические сетевые представления
- Обучайте, интерпретируйте, визуализируйте и сохраняйте тематические модели в стиле sklearn с помощью методов LSA, LDA или NMF