Извлечь Zip файл со 100% степенью сжатия

Я заметил эту проблему при попытке запустить следующий сценарий R.

library(downloader)
download('http://download.cms.gov/nppes/NPPES_Data_Dissemination_Feb_2016.zip', 
         dest = 'dataset.zip', mode = 'wb')
npi <- read.csv(unz('dataset.zip', 'npidata_20050523-20160207.csv'), 
                as.is = TRUE)

По какой-то причине скрипт продолжал вращаться, поэтому я вручную загрузил данные и заметил, что степень сжатия составляет 100%.

Я не уверен, является ли Stackru лучшим Exchange для этого вопроса, поэтому я готов переместить этот вопрос, если предлагается другой Exchange. Открытый обмен данными может быть уместным, но на этом сайте нет особой активности.

У меня такой вопрос: я много работаю с данными, предоставляемыми правительством от Центров Medicare и Medicaid Services (CMS). Загрузки данных с этого сайта осуществляются в виде zip-файлов, и иногда они имеют коэффициент zip 100%. Это явно невозможно, поскольку размер несжатого файла составляет ~800PB. (CMS отмечает на своем сайте, что они считают размер несжатого файла ~4 ГБ.) Это повлияло на меня на моем рабочем компьютере; Я повторил эту проблему на компьютере коллеги, а также на моем собственном персональном компьютере.

Один пример можно найти здесь. (Нажмите на ссылку, а затем нажмите на Распространение данных NPPES). Есть и другие примеры, которые я заметил, и я написал CMS по этому поводу. Они отвечают, что файлы большие и не могут быть обработаны с помощью Excel. Я знаю об этом, и это не та проблема, с которой я сталкиваюсь.

Кто-нибудь знает, почему это происходит и как я могу это исправить?

1 ответ

С точки зрения cdetermans, какая доступная системная память у вас есть для R, чтобы выполнить распаковку и последующую загрузку данных? Глядя на изображение, которое вы разместили, и на ссылку на фактические данные, которая выглядит как ~560 МБ сжатой, это не создавало проблем в моей системе ( Win 10, 16 ГБ, Core i7, R v.3.2.3) для скачать, распаковать, прочитать несжатый CSV в таблицу.

Я бы порекомендовал - если ничего не работает - разделить ваши шаги по распаковке и загрузке данных. Возможно, даже вызовет (в зависимости от вашей ОС) системную команду R для распаковки ваших данных, ручной проверки и последующей раздельной выдачи кусочных read.tables для набора данных.

Желаем удачи rudycazabon

Другие вопросы по тегам