Можно ли увидеть прочитанные данные файла pytorchtext.data.Tabulardataset?

train, test = data.TabularDataset.splits(path="./data/", train="train.csv",test="test.csv",format="csv",fields=[("Tweet",TEXT), ("Affect Dimension",LABEL)])

У меня есть этот код, и я хочу оценить, правильно ли загружены данные или используются неправильные столбцы для текстовых полей и т. Д.

Если в моем файле есть столбцы "Tweet" для текстов и "Affect Dimension" для имени класса, правильно ли их размещать так, как это в разделе полей?

Редактировать: TabularDataset включает в себя объект Пример, в котором данные могут быть прочитаны. При чтении CSV-файлов в качестве разделителя принимается только ",". Все остальное приведет к повреждению данных.

1 ответ

Вы можете поставить любое имя поля независимо от того, что имеет ваш файл. Кроме того, я рекомендую НЕ использовать пробелы в именах полей.

Итак, переименуйте Affect Dimension в Affect_Dimension или что-нибудь удобное для вас.

Затем вы можете перебирать различные поля, как показано ниже, чтобы проверить прочитанные данные.

for i in train.Tweet:
    print i
for i in train.Affect_Dimension:
    print i

for i in test.Tweet:
    print i
for i in test.Affect_Dimension:
    print i
Другие вопросы по тегам