Панды read_csv не выводят одинаковые метаданные для похожих файлов

У меня есть 2 файла. Оба файла имеют следующий контент:

file1.csv:

label,text,is_valid
negative,"hi there",False
negative,"hello hi",False


file2.csv:

label,text,is_valid
negative,"hi there",False
negative,"hello hi",False
... 1000 such rows

Когда я делаю pd.read_csv('filex.csv') для них и создать df1, df2 соответствующий file1, file2, я получаю следующее dfx.info()

df1.info ():

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
label       2 non-null int64
text        2 non-null object
is_valid    2 non-null bool
dtypes: bool(1), int64(1), object(1)
memory usage: 114.0+ bytes

df2.info ():

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 450 to 647
Data columns (total 3 columns):
label       1000 non-null object
text        1000 non-null object
is_valid    1000 non-null bool
dtypes: bool(1), object(2)
memory usage: 24.4+ KB

Файл 1 был создан мной, Файл 2 я получил от кого-то другого. По содержанию они выглядят одинаково, однако, когда над ними выполняется pd.read_csv, df info() для каждого из них различна. Мне нужно передать файлы в библиотеку, которая будет вызывать pd.read_csv('file.csv', heade='infer') на них. Другими словами, я не могу явно указать dtype, etc, Как убедиться, что я могу сгенерировать файл 1 так, чтобы сгенерированный из него df был по формату идентичен сгенерированному df2?

0 ответов

Другие вопросы по тегам