Python 3.6: сравните два больших сжатых csv-файла и получите записи различий
У меня есть 2 сжатых файла CSV IMFBOP2017_1.csv.gz
а также IMFBOP2017_2.csv.gz
с одинаковыми столбцами в обоих файлах, т.е. "Location, Indicator, Measure, Unit, Frequency, Date"
,
Всего строк 60 миллионов +
Я хочу сравнить оба файла и отображения строк IMFBOP2017_1
которые не присутствуют в IMFBOP2017_2
,
Мой план состоит в том, чтобы импортировать оба файла в кадры данных, добавить дополнительный столбец "сравнить" с обоими кадрами данных и обновить его, объединяя все поля как
Расположение | Индикатор | Измерение | Единица | Частота | Дата и НЕ В работе.
Я думаю, что это дорогостоящий процесс, есть ли простое решение для этого?
1 ответ
Панды могут читать сжатые файлы данных с обычным pandas.read_csv()
, Как сделать различие между двумя фреймами данных описано в Pandas: Diff of двух фреймов данных.