Эффективный подсчет слов Hadoop для большого файла

Question

Эффективный подсчет слов Hadoop для большого файла

Я хочу реализовать редуктор hadoop для подсчета слов. В моем редукторе я использую хеш-таблицу для подсчета слов. Но если мой файл очень большой, хеш-таблица будет использовать слишком много памяти. Как я могу решить эту проблему? (Например, файл с 10 миллионами строк каждый редуктор получает 100 миллионов слов, как он может считать слова, хеш-таблица требует 100 миллионов ключей) Моя текущая реализация находится в Python. Есть ли умный способ уменьшить объем памяти?

0

python hadoop hadoop-streaming

Источник

user819330 01 дек '12 в 20:12

1 ответ

Решение

Другие вопросы по тегам python hadoop hadoop-streaming

user1279787 01 дек '12 в 20:42 2012-12-01 20:42 · Accepted Answer · 2012-12-01 20:42

Самый эффективный способ сделать это - сохранить хэш-карту частоты слов в ваших преобразователях и сбросить их в выходной контекст, когда они достигнут определенного размера (скажем, 100 000 записей). Затем очистите карту и продолжайте (не забудьте сбросить карту и в методе очистки).

Если у вас все еще есть 100 миллионов слов, то вам придется либо долго ждать окончания работы редукторов, либо увеличить размер кластера и использовать больше редукторов.