Из коробки фильтрация спама?

Я работаю над системой мониторинга социальных сетей. Мы сами не сканируем сеть, мы получаем каналы от таких агрегаторов, как Spinn3r. В большинстве случаев, "блоги", которые ничего, кроме страниц ссылок на порно сайты фильтруются, но мы хотели бы что-то в доме, что мы можем тренироваться на более быстрый срок, чем ждать вверх по течению поставщиков, чтобы сделать изменения.

Я посмотрел на Spamassassin, и это было бы идеально для наших целей, если бы мы имели дело с электронной почтой. Есть ли какая-нибудь библиотека, которая может взять только текст, и дать ему показатель качества, основанный на таких вещах, как рабочие частоты, количество ссылок, скрытый фоновый текст и так далее?

В идеале я ищу что-то в Java, но если там ничего нет, я бы согласился с клиент-сервером или встраиванием библиотеки jruby или jython.

Я думаю, что в конечном итоге мне придется построить его самому, но это всегда стоит того.

1 ответ

Есть спам-плагины для WordPress, чтобы ловить спам-комментарии. Поиск в Google дает: WP-SpamFree Anti-Spam и Spam Karma 2.3

Плагины для WordPress, похоже, реализованы на PHP. Может быть, там может быть что-то полезное.

Другие вопросы по тегам