Бэкэнд данных облака тегов
Я хочу иметь возможность генерировать облака тегов из свободного текста, который поступает из любого количества различных источников. Для ясности, я не говорю о том, как отобразить облако тегов после того, как критические теги / фразы уже обнаружены, я надеюсь, что смогу найти сами значимые фразы... предпочтительнее в стеке PHP/MySQL.
Если бы мне пришлось делать это самому, я бы начал с установки какого-то индекса для слов / фраз, который бы давал "нормальную" частоту для любого слова / фразы. Например, "Константинополь" встречается в среднем один раз в 1 000 000 слов (нормальная частота "0,000001"). Затем, когда я анализирую текст, я нахожу отдельные слова / фразы (еще одна проблема!), Нахожу частоты каждого из них на входе и сравниваю с ожидаемой частотой. Слова, которые имеют самое высокое отношение к ожидаемой частоте, получают повышенный приоритет в облаке.
Я хотел бы верить, что кто-то другой уже сделал это, ПУТЬ лучше, чем я мог надеяться, но я буду проклят, если смогу это найти.
Какие-либо рекомендации??
1 ответ
Вам нужен инвертированный индекс, используемый полнотекстовыми поисковыми системами. Должна помочь библиотека текстового поиска, такая как Lucene или Xapian, многие из таких библиотек имеют привязки PHP.