Можно ли увидеть прочитанные данные файла pytorchtext.data.Tabulardataset?
train, test = data.TabularDataset.splits(path="./data/", train="train.csv",test="test.csv",format="csv",fields=[("Tweet",TEXT), ("Affect Dimension",LABEL)])
У меня есть этот код, и я хочу оценить, правильно ли загружены данные или используются неправильные столбцы для текстовых полей и т. Д.
Если в моем файле есть столбцы "Tweet" для текстов и "Affect Dimension" для имени класса, правильно ли их размещать так, как это в разделе полей?
Редактировать: TabularDataset включает в себя объект Пример, в котором данные могут быть прочитаны. При чтении CSV-файлов в качестве разделителя принимается только ",". Все остальное приведет к повреждению данных.
1 ответ
Вы можете поставить любое имя поля независимо от того, что имеет ваш файл. Кроме того, я рекомендую НЕ использовать пробелы в именах полей.
Итак, переименуйте Affect Dimension
в Affect_Dimension
или что-нибудь удобное для вас.
Затем вы можете перебирать различные поля, как показано ниже, чтобы проверить прочитанные данные.
for i in train.Tweet:
print i
for i in train.Affect_Dimension:
print i
for i in test.Tweet:
print i
for i in test.Affect_Dimension:
print i