Как автоматически определять фрагменты предложения в текстовом файле

Я работаю над проектом и мне нужен инструмент или API, чтобы обнаружить фрагменты предложения в большом тексте. Существует много решений, таких как OpenNLP, для обнаружения предложений в заданном файле. Однако я не смог найти какого-либо явного решения проблемы поиска слов, фраз или комбинаций символов событий, которые не относятся ни к каким грамматически правильным предложениям.

Любая помощь будет оценена.

Спасибо,

Lorderon

1 ответ

Вы можете использовать n-граммы как обходной путь:

Предположим, у вас есть большая коллекция текста с реальными предложениями для справки. Вы можете извлечь все последовательности из 1,2,3,4,5 или более слов, а затем в вашем тексте дважды проверить, существуют ли фрагменты из вашего текста в виде n-граммов.

Вы можете загрузить n-грамм непосредственно из Google: http://googleresearch.blogspot.de/2006/08/all-our-n-gram-are-belong-to-you.html но вам может понадобиться много трафика.

Вы также можете подсчитать n-грамм самостоятельно, в этом случае вы можете взять проанализированные наборы данных википедии с моего сайта: http://glm.rene-pickhardt.de/data/ и исходный код из https://github.com/renepickhardt/generalized-language-modeling-toolkit для самостоятельного создания ngram (или любого другого инструментария ngram, такого как srilm, kylm, opengrm,...)

Другие вопросы по тегам