Python 3.6: сравните два больших сжатых csv-файла и получите записи различий

У меня есть 2 сжатых файла CSV IMFBOP2017_1.csv.gz а также IMFBOP2017_2.csv.gz с одинаковыми столбцами в обоих файлах, т.е. "Location, Indicator, Measure, Unit, Frequency, Date",

Всего строк 60 миллионов +

Я хочу сравнить оба файла и отображения строк IMFBOP2017_1 которые не присутствуют в IMFBOP2017_2,

Мой план состоит в том, чтобы импортировать оба файла в кадры данных, добавить дополнительный столбец "сравнить" с обоими кадрами данных и обновить его, объединяя все поля как

Расположение | Индикатор | Измерение | Единица | Частота | Дата и НЕ В работе.

Я думаю, что это дорогостоящий процесс, есть ли простое решение для этого?

1 ответ

Решение

Панды могут читать сжатые файлы данных с обычным pandas.read_csv(), Как сделать различие между двумя фреймами данных описано в Pandas: Diff of двух фреймов данных.

Другие вопросы по тегам