Работа с отсутствующими или неизвестными функциями при маркировке элементов с использованием модели CRF (CRFSuite)

Я использую CRFSuite (реализация python-crfsuite) для создания named-entity-extractor, аналогично учебнику на http://nbviewer.ipython.org/github/tpeng/python-crfsuite/blob/master/examples/CoNLL%202002.ipynb Обучающий ввод представляет собой последовательность слов, каждое из которых имеет ряд особенностей.

Проблема в том, что для моего конкретного варианта использования у меня не всегда есть возможности сущностей, которые я пытаюсь распознать. Я хочу, чтобы модель CRF распознавала сущность на основе особенностей окружающих слов. Однако, когда я просто ввожу пустой dict {} как свойства слова, именованные объекты никогда не классифицируются как таковые должным образом.

Мне интересно, есть ли функция или стандартный метод для обработки таких случаев, когда после обучения модели не всегда есть функции для всех элементов.

1 ответ

Назначение фиксированного значения для отсутствующих функций, таких как "-" или "+", может быть полезным в некоторых случаях.

Другие вопросы по тегам