Загрузка данных с помощью сёгуна
Я пытаюсь использовать набор инструментов сёгуна, чтобы классифицировать людей в этом наборе как утопленные или нет.
Я хотел бы использовать двигатели сёгуна, такие как CFIle, LibSVMFile, SparseRealFeatures и т. Д., Как упоминалось во введении сёгуна, но я застреваю.
Прежде всего, в этом введении вы непосредственно загружаете LibSVMFile в этом формате, но автор не упоминает, как они генерируют файл данных из формата CSV (который является исходным форматом набора данных, который он использует)...
Поскольку у меня нет набора данных в требуемом формате, я попытался загрузить свой набор данных с классом CFile или, что еще лучше, с классом CCSVFile, но я получил
NameError: name 'CFile' is not defined
а также
NameError: name 'CCSVFile' is not defined
(Я использую сёгун через Python3, скомпилированный из исходного кода в Ubuntu 17.10, и импортирую весь сёгун с помощью "из импорта сёгун *")
Тем не менее, когда я использую
data_file=LibSVMFile(os.path.join(SHOGUN_DATA_DIR, 'train.csv'))
как в примере, нет ошибок в отношении неопределенных классов, но, как и ожидалось, вырождается в:
[1] 8870 segmentation fault (core dumped) python3 titanic.py
Я хотел бы знать, как правильно использовать двигатели сёгуна для загрузки наборов данных...
В другом блокноте сёгуна они не использовали их, а просто загружали набор данных, используя другие библиотеки, и я начинаю думать, что это лучший способ.
1 ответ
Чтобы прочитать CSV-файл, вы должны выполнить следующее (на python):
import shogun as sg
train_csv = sg.CSV("train.csv")
но обратите внимание, что файл содержит много категорий, которые нуждаются в кодировании, поэтому сначала вы должны выполнить некоторые операции с данными, прежде чем пытаться использовать их в моделях сёгунов.