Выполнение задания Disco Map-Reduction для данных, хранящихся в Discodex
У меня есть большое количество статических данных, которые должны предложить произвольный доступ. Поскольку я использую Disco, чтобы переварить его, я использую очень впечатляющий внешний вид хранилища Discodex (ключ, значение) поверх распределенной файловой системы Disco. Однако документация Disco довольно скудна, поэтому я не могу понять, как использовать мои индексы Discodex в качестве входных данных для задания Disco.
Это вообще возможно? Если да, то как мне это сделать?
Или я думаю об этом неправильно? Было бы лучше просто хранить эти данные в виде текстового файла на DDFS?
2 ответа
Неважно, кажется, что то, что я делаю, на самом деле не должно быть сделано. Это может быть возможно, но было бы гораздо лучше просто использовать семантические теги DDFS для ссылки на большие двоичные данные.
Правильный вариант использования Discodex - это сохранение индексов, созданных программой Disco Map-Reduce, которые не обязательно должны быть введены другой программой Map-Reduce.
Вы также можете использовать DiscoDB для хранения выходных данных одного задания, а затем использовать их в качестве входных данных для другого задания. Учебник по DiscoDB имеет хороший пример.