Загрузка данных с помощью сёгуна

Я пытаюсь использовать набор инструментов сёгуна, чтобы классифицировать людей в этом наборе как утопленные или нет.

Я хотел бы использовать двигатели сёгуна, такие как CFIle, LibSVMFile, SparseRealFeatures и т. Д., Как упоминалось во введении сёгуна, но я застреваю.

Прежде всего, в этом введении вы непосредственно загружаете LibSVMFile в этом формате, но автор не упоминает, как они генерируют файл данных из формата CSV (который является исходным форматом набора данных, который он использует)...

Поскольку у меня нет набора данных в требуемом формате, я попытался загрузить свой набор данных с классом CFile или, что еще лучше, с классом CCSVFile, но я получил

NameError: name 'CFile' is not defined

а также

NameError: name 'CCSVFile' is not defined

(Я использую сёгун через Python3, скомпилированный из исходного кода в Ubuntu 17.10, и импортирую весь сёгун с помощью "из импорта сёгун *")

Тем не менее, когда я использую

data_file=LibSVMFile(os.path.join(SHOGUN_DATA_DIR, 'train.csv'))

как в примере, нет ошибок в отношении неопределенных классов, но, как и ожидалось, вырождается в:

[1]    8870 segmentation fault (core dumped)  python3 titanic.py

Я хотел бы знать, как правильно использовать двигатели сёгуна для загрузки наборов данных...

В другом блокноте сёгуна они не использовали их, а просто загружали набор данных, используя другие библиотеки, и я начинаю думать, что это лучший способ.

1 ответ

Решение

Чтобы прочитать CSV-файл, вы должны выполнить следующее (на python):

import shogun as sg
train_csv = sg.CSV("train.csv")

но обратите внимание, что файл содержит много категорий, которые нуждаются в кодировании, поэтому сначала вы должны выполнить некоторые операции с данными, прежде чем пытаться использовать их в моделях сёгунов.

Другие вопросы по тегам