MinHash Реализация Spark

Я пытаюсь реализовать алгоритм MinHash, как описано в главе 3, как можно проще в Spark. Я много искал везде. Ну, я решил следить за реализацией этого блога, как предлагает Билл Дим: https: //blog.cluster-text.com/tag/minhash/ Я просто чувствую, что что-то не так с моей реализацией, или я неправильно понял. Что я сделал до сих пор:

  • document => n-граммы (я использую 9 граммов (букв), как сказано в книге, но это может быть изменено на 5 слов, как предложено Биллом Димом)
  • n-граммы => MurMurHash3 (так что это Hased NGrams для каждого документа)
  • HashedNGramsRDD => Найти мин (NGram) для каждого документа
  • HashedNGramsRDD ^ (199 случайных чисел) и возьмите min = 199 минимальных значений Xored HashedMurMurNGrams.
  • Таким образом, у меня есть всего 200 минимусов. и это моя подпись MinHash. Это правильно? пожалуйста помоги! Заранее спасибо.

0 ответов

Другие вопросы по тегам