Есть ли в памяти реализация заданий SparseVectorsFromSequenceFiles, RowIdJob и RowSimilityJob
Я работал над выполнением скрытого семантического анализа с использованием SparseVectorsFromSequenceFiles
, RowIdJob
а также RowSimilarityJob
Задания Hadoop, предоставляемые Mahout, которые запускают задания Map/Reduce. Я пытался найти эквивалентную реализацию для этих функций, которая работает в памяти, либо в одном потоке, либо, предпочтительно, в нескольких потоках.
Что-то подобное существует?
1 ответ
Я не знаю, не думаю, но было бы тривиально написать. Вы просто открываете SequenceFile.Reader
и для каждой записи, получить Vector
от стоимости Writable
и делать то, что вы хотите. Это, вероятно, 10 строк кода и не стоит инструмента.