Панды read_csv не выводят одинаковые метаданные для похожих файлов
У меня есть 2 файла. Оба файла имеют следующий контент:
file1.csv:
label,text,is_valid
negative,"hi there",False
negative,"hello hi",False
file2.csv:
label,text,is_valid
negative,"hi there",False
negative,"hello hi",False
... 1000 such rows
Когда я делаю pd.read_csv('filex.csv')
для них и создать df1, df2
соответствующий file1, file2, я получаю следующее dfx.info()
df1.info ():
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
label 2 non-null int64
text 2 non-null object
is_valid 2 non-null bool
dtypes: bool(1), int64(1), object(1)
memory usage: 114.0+ bytes
df2.info ():
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 450 to 647
Data columns (total 3 columns):
label 1000 non-null object
text 1000 non-null object
is_valid 1000 non-null bool
dtypes: bool(1), object(2)
memory usage: 24.4+ KB
Файл 1 был создан мной, Файл 2 я получил от кого-то другого. По содержанию они выглядят одинаково, однако, когда над ними выполняется pd.read_csv, df info() для каждого из них различна. Мне нужно передать файлы в библиотеку, которая будет вызывать pd.read_csv('file.csv', heade='infer')
на них. Другими словами, я не могу явно указать dtype, etc
, Как убедиться, что я могу сгенерировать файл 1 так, чтобы сгенерированный из него df был по формату идентичен сгенерированному df2?