Определение количества раз, когда каждое слово в хэш-наборе встречается в текстовом документе.

Question

Определение количества раз, когда каждое слово в хэш-наборе встречается в текстовом документе.

Я реализую алгоритм наивной байесовской классификации текста в Java.

До сих пор я объявил хеш-набор Vocabulary, в котором хранятся все уникальные слова из заданного текстового файла (тестового файла).

Одним из шагов в алгоритме является объединение всех элементов тестовых файлов в один текстовый файл. Это оказывается довольно большой файл со словами из каждого файла.

Теперь я должен посчитать количество вхождений каждого слова в Словаре с помощью сцепленного текстового файла. Мое первое предположение - сохранить структуру массива, которая содержит частоты каждого слова. Но опять же, у меня было бы слишком много записей.

Может ли кто-нибудь дать мне лучшие предложения?

0

java text classification bayesian

Источник

user737798 03 июн '12 в 09:08

2 ответа

Другие вопросы по тегам java text classification bayesian

user1419315 03 июн '12 в 09:11 2012-06-03 09:11 · Answer 1 · 2012-06-03 09:11

Используйте словарь (HashMap), где слова - это ключи, а значения - количество вхождений. Если HashSet помещается в память, HashMap также должен.

4

Источник

user1419315 03 июн '12 в 09:11

user1014830 03 июн '12 в 09:15 2012-06-03 09:15 · Answer 2 · 2012-06-03 09:15

Вы можете попробовать использовать Tries, и листовые узлы могут хранить частоту слов.

0

Источник

user1014830 03 июн '12 в 09:15