Загрузка огромного файла в RHadoop с использованием from.dfs (библиотека rmr2)
В моей среде есть R-скрипт, который выполняет задание MapReduce в инфраструктуре Hadoop. Как входные, так и выходные данные хранятся в HDFS. Для загрузки результатов и выполнения дальнейших операций из среды R используется функция from.dfs. Однако я не уверен, что это правильный подход. Я прочитал в документации следующее примечание:
Эти функции позволяют перемещать данные из оперативной памяти в файловую систему и обратно. Помните, что емкость этих двух носителей отличается на два или более порядка, поэтому преобразование будет иметь смысл только в определенных ситуациях. Эти функции не выполняют никакого контроля размера, поэтому ответственность лежит на пользователе.
- Что это значит?
Что если файл, созданный процессом mapreduce, имеет размер около 50 ГБ? Нужно ли 50 ГБ ОЗУ или файл как-то выгружен и буферизован?
Каков наилучший способ решить эту проблему?