Ошибка после удаления значений NA дважды, сначала с помощью библиотеки панд, затем с помощью R

Question

Ошибка после удаления значений NA дважды, сначала с помощью библиотеки панд, затем с помощью R

Сначала я удалил значения NA, используя следующий код Python:

import pandas as pd

a = pd.read_csv("true.csv",low_memory=False)
#print a
b = pd.read_csv("false.csv",low_memory=False)


merged = a.append(b, ignore_index=False)
merged=merged.dropna(axis=1)
merged.to_csv("out.csv", index=False)

После этого я использовал Rattle и обнаружил, что 2 столбца являются категориальными, и мне нужны были только числовые данные. Поэтому я удалил эти столбцы, используя следующий код:

cat("\nSTART\n")
startTime = proc.time()[3]
startTime

#--------------------------------------------------------------
# Step 1: Include Library
#--------------------------------------------------------------
cat("\nStep 1: Library Inclusion")
library(randomForest)
library(FSelector)

#--------------------------------------------------------------
# Step 2: Variable Declaration
#--------------------------------------------------------------
cat("\nStep 2: Variable Declaration")
modelName <- "randomForest"
modelName

InputDataFileName="out.csv"
InputDataFileName

training = 70      # Defining Training Percentage; Testing = 100 - Training

#--------------------------------------------------------------
# Step 3: Data Loading
#--------------------------------------------------------------
cat("\nStep 3: Data Loading")
dataset <- read.csv(InputDataFileName)      # Read the datafile
dataset <- dataset[sample(nrow(dataset)),]  # Shuffle the data row wise.

#result <- cfs(Features ~ ., dataset)

head(dataset)   # Show Top 6 records
nrow(dataset)   # Show number of records
names(dataset)  # Show fields names or columns names

#--------------------------------------------------------------
# Step 4: Count total number of observations/rows.
#--------------------------------------------------------------
cat("\nStep 4: Counting dataset")
totalDataset <- nrow(dataset)
totalDataset

nums <- sapply(dataset, is.numeric)
dataset<-dataset[ ,nums]

#--------------------------------------------------------------
# Step 5: Choose Target variable
#--------------------------------------------------------------
cat("\nStep 5: Choose Target Variable")
target  <- names(dataset)[1]   # i.e. RMSD
target

#data(dataset)

result <- cfs(Activity ~ ., dataset)

В приведенном выше коде я использовал последнюю строку для выбора функции с помощью FSelector,

Я получаю следующую ошибку после выполнения последней строки:

Ошибка в if (sd(vec1) == 0 || sd(vec2) == 0) return(0):
пропущенное значение, где требуется ИСТИНА / ЛОЖЬ

out.csv https://drive.google.com/open?id=0B3UWvP6zFBQnN3JiamloOWl3T28

1

python r pandas na fselector

Источник

user6604267 27 июл '17 в 19:28

1 ответ

Решение

Другие вопросы по тегам python r pandas na fselector

user6604267 28 июл '17 в 08:42 2017-07-28 08:42 · Accepted Answer · 2017-07-28 08:42

До последней строки

(result <- cfs(Activity ~ ., dataset))

использование

dataset$Activity = factor(dataset$Activity)

Выполнение займет некоторое время, потому что у нас очень большой набор данных.

1

Источник

user6604267 28 июл '17 в 08:42