Что мне делать с неизвестными данными при создании weka arff файлов
Я пытаюсь отформатировать свой набор данных как файл weka arff. это образец моего файла arff:
@relation my_relation
@attribute 'attrib_1' numeric
@attribute 'attrib_2' numeric
@attribute 'attrib_3' numeric
...
@attribute 'class' {1,2,3,4,5}
@data
6,6,55,0,0,0,18.9,0,1,2,'?',14,15,20,'?','?','?','?',28,29,1
54,25,19,4.85,0,1,10,13,'?','?','?','?','?','?',15,16,19,20,21,0,3
...
Мои подвиги являются числовыми и действительными значениями, но в каждом случае есть некоторые пропущенные значения для каждого объекта (экземпляры). Как мне определить, что мои функции содержат пропущенные значения? (Я использовал '?' Для пропущенных значений, но эта ошибка возникает при попытке открыть mydata.arff
number expected, read token[?], line 746
)Редактировать: я изменил '?' к? и попытался загрузить файл. на этот раз возникает следующая ошибка:
nominal value not declared in header, read Token[86], line 746
1 ответ
Это слишком долго, чтобы вписаться в комментарий. Я думаю, что я вижу вероятную проблему с вашими данными. Он содержит несколько плохих персонажей. Вы, вероятно, читаете это в веб-браузере. Если это так, просмотрите HTML-источник для этой страницы, а затем прокрутите вниз до своих данных. В Internet Explorer я смог сохранить эту веб-страницу в виде текстового файла, а затем просто посмотреть на текст в редакторе, чтобы увидеть плохих символов. Во многих местах данных я вижу & zwnj; & # 8203; Это символы нулевой ширины (см. Zwnj и 8203. То есть это символы, которые присутствуют в данных, но не отображаются на экране, даже в виде пустого пространства. Поскольку ваши данные содержат эти ложные символы, WEKA не может прочитайте его. Пожалуйста, проверьте ваши данные, чтобы увидеть, содержит ли оригинал эти скрытые символы.