Какой алгоритм хорош для генетики дублированных данных?

Мой вопрос больше связан с поиском лучшего алгоритма для моего набора данных.

У меня есть данные, которые состоят из трех столбцов, а именно: отдельные лица, а также оценка заболевания и теста (у меня есть 50 функций оценки теста, но упоминается только одна функция оценки теста). У меня 3000 человек, и возможными значениями для характеристики болезни являются disA, disB и disC, где в качестве оценки теста используется дискретная переменная. Болезнь - это мой атрибут класса.

У одного человека может быть до трех различных заболеваний, но только одно значение теста. Моя цель состоит в том, чтобы классифицировать тестовые оценки на основе заболевания (какие тестовые оценки связаны с каким заболеванием). Но здесь проблема заключается в том, что если у одного человека есть три заболевания, то все тестовые оценки будут повторяться три раза. Например, для отдельного aa (со всеми disA, disB и disC) результат теста равен 12. И тогда файл анализа будет выглядеть так

individuals, Disease, Test Score
aa,disA,12,...
aa,disB,12,...
aa,disC,12,...

Это приведет к предвзятому анализу. Существует ли какой-либо алгоритм интеллектуального анализа данных или статистический тест для такого типа данных? Я не могу удалить этих пациентов, потому что они составляют самую большую долю данных.

2 ответа

Почему бы не преобразовать проблему в одноэтапное сопоставление результатов теста с набором заболеваний? Используя ваш пример, в первой строке данных ниже показано "aa" как наличие всех заболеваний, в то время как "bb" имеет только заболевание A.

individuals, DiseaseA, DiseaseB, DiseaseC, Test Score
aa,true,true,true,12
bb,true,false,false,10

Я бы использовал следующий формат, разработанный Хэдли Уикхемом, описанный в reshape пакет:

http://had.co.nz/reshape/

http://www.jstatsoft.org/v21/i12

Пример:

individuals, variable, value
aa,disease,disA
aa,disease,disB
aa,disease,disC
aa,testscore,12
Другие вопросы по тегам