Выполнение задания Disco Map-Reduction для данных, хранящихся в Discodex

Question

Выполнение задания Disco Map-Reduction для данных, хранящихся в Discodex

У меня есть большое количество статических данных, которые должны предложить произвольный доступ. Поскольку я использую Disco, чтобы переварить его, я использую очень впечатляющий внешний вид хранилища Discodex (ключ, значение) поверх распределенной файловой системы Disco. Однако документация Disco довольно скудна, поэтому я не могу понять, как использовать мои индексы Discodex в качестве входных данных для задания Disco.

Это вообще возможно? Если да, то как мне это сделать?

Или я думаю об этом неправильно? Было бы лучше просто хранить эти данные в виде текстового файла на DDFS?

1

python mapreduce disco

Источник

user338513 08 июл '11 в 18:05

2 ответа

Решение

Вы также можете использовать DiscoDB для хранения выходных данных одного задания, а затем использовать их в качестве входных данных для другого задания. Учебник по DiscoDB имеет хороший пример.

http://discoproject.org/doc/howto/discodb.html

0

Источник

user226697 22 мар '12 в 00:39

Другие вопросы по тегам python mapreduce disco

user338513 08 июл '11 в 18:35 2011-07-08 18:35 · Accepted Answer · 2011-07-08 18:35

Неважно, кажется, что то, что я делаю, на самом деле не должно быть сделано. Это может быть возможно, но было бы гораздо лучше просто использовать семантические теги DDFS для ссылки на большие двоичные данные.

Правильный вариант использования Discodex - это сохранение индексов, созданных программой Disco Map-Reduce, которые не обязательно должны быть введены другой программой Map-Reduce.