Невозможно выделить доступную память в AWS Rstudio

Я использую AWS R studio, чтобы прочитать 35-гигабайтный CSV-файл из S3 и выполнить анализ. Я выбираю машину с m4.4xlarge с 62 ГБ памяти, но я продолжаю получать следующее сообщение при чтении данных перед выполнением любого анализа: "Ошибка: невозможно выделить вектор размером 33.0 ГБ". Код, который я использовал:

library("aws.s3")
Sys.setenv("AWS_ACCESS_KEY_ID" = "xxxxxxx",
       "AWS_SECRET_ACCESS_KEY" = "yyyyyyy")
obj <-get_object("s3://xxx/yyy.csv")  

Когда я использовал следующий код,

aws.s3::s3read_using(read.csv, object=“"s3://xxx/yyyy.csv”)

Сообщение об ошибке становится:

сообщение об ошибке, которое я получил, было ниже:

Error in curl::curl_fetch_disk(url, x$path, handle = handle) : 
Failed writing body (4400 != 16360)

Я не знаком с Linux, и я использовал AMI Луи Аслетта ( http://www.louisaslett.com/RStudio_AMI/). Есть ли что-то, что я должен изменить? Спасибо!

Я подозреваю, что вопрос связан со следующими двумя вопросами, но четкого ответа не было.

Чтение больших файлов JSON из S3 в экземпляре RStudio EC2 (AMI Луи Аслетта)

Проблемы с загрузкой больших файлов в RStudio с использованием AMI Луи Аслетта на EC2

0 ответов

Я преодолел очень похожую проблему в R с тем же AMI. В моем случае проблема заключалась в том, что, хотя размер домашнего каталога по умолчанию для AWS был меньше 8–10 ГБ, независимо от размера вашего экземпляра. Поскольку это как попытка загрузить домой, тогда не было достаточно места. Это похоже на ту же проблему из личного опыта того же сообщения об ошибке при чтении данных с тем же AMI.

Если вы загрузите файл на другой диск экземпляра, это можно решить. Поскольку AMI Louis Aslett Rstudio базируется в этом пространстве 8-10 ГБ, вам нужно будет установить рабочий каталог вне этого, домашнего каталога. Не интуитивно очевидно из интерфейса сервера Rstudio.

Я считаю, что решение вашей проблемы не имеет ничего общего с методом чтения данных. Проблема в том, что размер домашнего каталога меньше 10 ГБ, и вы пытаетесь прочитать его (на мой взгляд, это даже более вероятно, если вы являетесь пользователем Windows, поскольку вы не ожидаете, что машина на 60 ГБ будет иметь только 10 ГБ в каталоге по умолчанию). Я бы посоветовал взглянуть на другие каталоги (например, подняться на несколько уровней выше дома в поле выбора каталога Rstudio на RHS в Rstudio или с помощью команды df в командной строке Linux). Затем выполните setwd() в другом каталоге (например, xda или другом, имеющем достаточно места) и попробуйте прочитать его снова.

Возможно, я написал этот ответ не так, как хотели бы модераторы, но я преодолел аналогичную проблему, и на этот вопрос не было ответа в течение года, поэтому я надеюсь, что это поможет (о, и у меня недостаточно "очков", чтобы напишите комментарий, так что это должен быть ответ)

Другие вопросы по тегам