Подсчет слов и фраз с помощью XSLT
Мы хотели бы создать словарь документации по продуктам, которые производит наша компания, чтобы создать фиксированную терминологию, поэтому мы хотели бы посчитать частоту конкретных слов и фраз.
Это может быть решено несколькими различными способами, но что-то, что мы хотели бы решить, так это написать алгоритм XSLT, который может распознавать фразы, как конкретные слова, часто встречающиеся вместе (поэтому нам не нужно заранее задавать все фразы и все их версии с разными спряжениями, прикреплениями и т. д.).
Как вы думаете, может ли эта задача быть решена с помощью XSLT, или мы должны позаботиться о других решениях?
Если у кого-нибудь есть полезный совет, как нам начать, я был бы очень рад услышать о ваших идеях и поговорить об этом!
1 ответ
Вы ищете словосочетания, которые в алгоритмическом смысле связаны с точечной взаимной информацией.
В XSLT нет структуры для обработки естественного языка (NLP), поэтому вам придется ее придумать. Тем не менее, существуют NLP-фреймворки для языков программирования, такие как Python NLTK. Посмотрите этот пример для поиска словосочетаний с использованием Python.
Возможно, проще всего было бы использовать внешнее приложение, написанное на популярном языке интеллектуального анализа данных, таком как Python или R. (Вы можете даже подключить его к своей обработке DITA OT.) Вы также можете посмотреть на поставщиков с существующими решениями. Я не проводил углубленного поиска этого, но я видел системы, такие как Watson, Semaphore или даже XDocs, которые возвращают результаты анализа языка.