Python 3.6: сравните два больших сжатых csv-файла и получите записи различий

Question

Python 3.6: сравните два больших сжатых csv-файла и получите записи различий

У меня есть 2 сжатых файла CSV IMFBOP2017_1.csv.gz а также IMFBOP2017_2.csv.gz с одинаковыми столбцами в обоих файлах, т.е. "Location, Indicator, Measure, Unit, Frequency, Date",

Всего строк 60 миллионов +

Я хочу сравнить оба файла и отображения строк IMFBOP2017_1 которые не присутствуют в IMFBOP2017_2,

Мой план состоит в том, чтобы импортировать оба файла в кадры данных, добавить дополнительный столбец "сравнить" с обоими кадрами данных и обновить его, объединяя все поля как

Расположение | Индикатор | Измерение | Единица | Частота | Дата и НЕ В работе.

Я думаю, что это дорогостоящий процесс, есть ли простое решение для этого?

0

python python-3.x dataframe gunzip

Источник

user8194773 01 авг '17 в 06:37

1 ответ

Решение

Другие вопросы по тегам python python-3.x dataframe gunzip

user7364718 01 авг '17 в 11:26 2017-08-01 11:26 · Accepted Answer · 2017-08-01 11:26

Панды могут читать сжатые файлы данных с обычным pandas.read_csv(), Как сделать различие между двумя фреймами данных описано в Pandas: Diff of двух фреймов данных.

1

Источник

user7364718 01 авг '17 в 11:26