Подсчет слов и фраз с помощью XSLT

Мы хотели бы создать словарь документации по продуктам, которые производит наша компания, чтобы создать фиксированную терминологию, поэтому мы хотели бы посчитать частоту конкретных слов и фраз.

Это может быть решено несколькими различными способами, но что-то, что мы хотели бы решить, так это написать алгоритм XSLT, который может распознавать фразы, как конкретные слова, часто встречающиеся вместе (поэтому нам не нужно заранее задавать все фразы и все их версии с разными спряжениями, прикреплениями и т. д.).

Как вы думаете, может ли эта задача быть решена с помощью XSLT, или мы должны позаботиться о других решениях?

Если у кого-нибудь есть полезный совет, как нам начать, я был бы очень рад услышать о ваших идеях и поговорить об этом!

1 ответ

Вы ищете словосочетания, которые в алгоритмическом смысле связаны с точечной взаимной информацией.

В XSLT нет структуры для обработки естественного языка (NLP), поэтому вам придется ее придумать. Тем не менее, существуют NLP-фреймворки для языков программирования, такие как Python NLTK. Посмотрите этот пример для поиска словосочетаний с использованием Python.

Возможно, проще всего было бы использовать внешнее приложение, написанное на популярном языке интеллектуального анализа данных, таком как Python или R. (Вы можете даже подключить его к своей обработке DITA OT.) Вы также можете посмотреть на поставщиков с существующими решениями. Я не проводил углубленного поиска этого, но я видел системы, такие как Watson, Semaphore или даже XDocs, которые возвращают результаты анализа языка.

Другие вопросы по тегам