R удаление элементов из данных транзакций

Я имею дело с пакетом R arules. У меня есть CSV-файл с 6 столбцами, названными соответственно: item1,item2,item3,item4,item5,item6. Каждая ячейка представляет элемент в корзине, а каждая строка - целую корзину для транзакции. Проблема заключается в том, что после чтения файла CSV как:

data <- read.csv('file.csv')

и после превращения в транзакции:

trans <- as(data, "transactions")

Я считаю, что те пустые ячейки считаются элементами под именем, т.е. 'itme3='. Есть ли способ указать, что пустые ячейки должны игнорироваться, или можно исключить определенные элементы из данных транзакции R?

1 ответ

Я не думаю, что код, который вы использовали для trans, будет работать.

Вы можете попробовать сделать это. Расположите ваши данные в формате двух столбцов. сродни

  1. Пользователь1: а
  2. Пользователь2: б
  3. Пользователь1: с
  4. USer1: a
  5. Пользователь2: d
  6. Пользователь2: б

После этого удалите дублирующиеся строки. В приведенном выше примере это будут строки 2 и 6. И затем вы можете использовать код пакета для транспонирования:

#Transposing data to run algorithm
trans1 = split(mydate$product, mydata$user_id,"transactions")

Поэтому, когда вы запустите приведенный выше код разделения, результатом будет объект, а не фрейм данных. И тогда вы можете продолжать работать априори.

Другие вопросы по тегам