MinHash Реализация Spark

Question

MinHash Реализация Spark

Я пытаюсь реализовать алгоритм MinHash, как описано в главе 3, как можно проще в Spark. Я много искал везде. Ну, я решил следить за реализацией этого блога, как предлагает Билл Дим: https: //blog.cluster-text.com/tag/minhash/ Я просто чувствую, что что-то не так с моей реализацией, или я неправильно понял. Что я сделал до сих пор:

document => n-граммы (я использую 9 граммов (букв), как сказано в книге, но это может быть изменено на 5 слов, как предложено Биллом Димом)
n-граммы => MurMurHash3 (так что это Hased NGrams для каждого документа)
HashedNGramsRDD => Найти мин (NGram) для каждого документа
HashedNGramsRDD ^ (199 случайных чисел) и возьмите min = 199 минимальных значений Xored HashedMurMurNGrams.
Таким образом, у меня есть всего 200 минимусов. и это моя подпись MinHash. Это правильно? пожалуйста помоги! Заранее спасибо.

0

apache-spark minhash

Источник

user5244006 10 окт '16 в 10:10

0 ответов

Другие вопросы по тегам apache-spark minhash