Как обрабатывать слова с ошибками в документах для задач интеллектуального анализа текста?

У меня есть набор неофициальных документов (несколько тысяч), к которым я хочу применить тематическое моделирование (MALLET). Проблема в том, что в документах содержится много слов с ошибками. Большинство из них являются преднамеренными, такими как короткие формы и локальные языки, такие как `'juz' -> 'just', 'alr' -> 'Уже'. Существует пара таких вариаций из-за разных стилей письма разных авторов.

После подачи их в MALLET я немного обеспокоился тем, что одна из сгенерированных тем на самом деле представляет собой набор слов с ошибками. Я полагаю, что эти слова в основном используются в небольшом подмножестве документов того же автора, поэтому МАЛЛЕТ взял их.

Мой вопрос заключается в том, проверяю ли я орфографию и исправляю ли эти наборы слов с ошибками и, возможно, сохраняю исправленный текст где-то перед выполнением дальнейших задач? Я предполагаю, что это означало бы, что мне нужно вручную проверить исправления, прежде чем совершать, верно? Каков был бы самый "эффективный" способ сделать это?

Или я на самом деле игнорирую эти слова с ошибками?

2 ответа

Решение

Что вы делаете со стоп-словами в данный момент? Если вы занимаетесь тематическим моделированием, то имеет смысл отфильтровать их. Если так, то почему бы вам не отфильтровать эти термины?

[Изменить в ответ на ответ]

Существует некоторое исследование о том, как обрабатывать стоп-слова в LDA более принципиально. На ум приходят две статьи:

  1. Схемы срочного взвешивания для скрытого распределения Дирихле
  2. Переосмысление LDA: Почему Приоры имеют значение.

[ 1] использует схему взвешивания терминов, которая, по-видимому, помогает в задаче прогнозирования, которую они устанавливают, [ 2] использует несимметричный априор перед распределением слов, что, по-видимому, приводит к нескольким темам, которые содержат все стоп-слова и другие распространенные слова. на весь корпус.

Мне кажется, что лучший способ автоматически определять стоп-слова и другие не относящиеся к теме слова в LDA - все еще вопрос исследования.

Я не думаю, что мы можем ответить на этот вопрос, не зная влияния слов с ошибками или слов с ошибками на результат моделирования вашей темы. Так что, если бы вы могли дать больше информации, это было бы хорошо.

Тем не менее, я бы подумал, что вы хотите исправить их, по крайней мере там, где исправление явно является целью первоначального автора.

Другие вопросы по тегам