Описание тега textacy

Справочный сайт: https://textacy.readthedocs.io/en/stable/

Характеристики

  • Потоковая передача двоичных данных текста, json, csv и spaCy на диск и с диска
  • Очистите и нормализуйте необработанный текст перед его анализом
  • Изучите множество включенных наборов данных с текстовыми данными и метаданными
  • от выступлений в Конгрессе до исторической литературы и комментариев Reddit
  • Доступ и фильтрация основных языковых элементов, таких как слова и нграммы, фрагменты существительных и предложения
  • Извлечение именованных сущностей, сокращений и их определений, прямых цитат, ключевых терминов и т. Д. Из документов
  • Сравнивайте строки, наборы и документы по множеству показателей сходства
  • Преобразование документов и корпусов в векторизованные и семантические сетевые представления
  • Обучайте, интерпретируйте, визуализируйте и сохраняйте тематические модели в стиле sklearn с помощью методов LSA, LDA или NMF