Как проверить на глупость или тарабарщину в тексте?
Я получаю текстовую строку и хочу проверить, является ли текст бессмысленным или нет. Под тряпкой я подразумеваю текст типа "gfgsgsogjw", то есть случайные нажатия клавиш. В настоящее время я использую NTextCat, чтобы просто проверить, соответствует ли язык строки языку, который я ожидаю (немецкий или английский), и в большинстве случаев это работает нормально. Однако небольшому проценту бессмысленных струн удается проскользнуть сквозь трещины. Есть ли альтернативный способ проверить текст на тарабарщину, который предложит мне более высокую точность?
1 ответ
Вы можете использовать скрытые марковские модели, чтобы проверить вероятность последовательности букв в вашем вводе на конкретном языке. А затем выбросить наименее вероятные. Вы можете сделать то же самое с сочетаниями слов. В обоих случаях вам нужно будет получить корпус текста на каждом языке, который вы используете для построения модели на нем.