Загрузка огромного файла в RHadoop с использованием from.dfs (библиотека rmr2)

В моей среде есть R-скрипт, который выполняет задание MapReduce в инфраструктуре Hadoop. Как входные, так и выходные данные хранятся в HDFS. Для загрузки результатов и выполнения дальнейших операций из среды R используется функция from.dfs. Однако я не уверен, что это правильный подход. Я прочитал в документации следующее примечание:

Эти функции позволяют перемещать данные из оперативной памяти в файловую систему и обратно. Помните, что емкость этих двух носителей отличается на два или более порядка, поэтому преобразование будет иметь смысл только в определенных ситуациях. Эти функции не выполняют никакого контроля размера, поэтому ответственность лежит на пользователе.

  1. Что это значит?
  2. Что если файл, созданный процессом mapreduce, имеет размер около 50 ГБ? Нужно ли 50 ГБ ОЗУ или файл как-то выгружен и буферизован?

  3. Каков наилучший способ решить эту проблему?

0 ответов

Другие вопросы по тегам