Какой алгоритм хорош для генетики дублированных данных?
Мой вопрос больше связан с поиском лучшего алгоритма для моего набора данных.
У меня есть данные, которые состоят из трех столбцов, а именно: отдельные лица, а также оценка заболевания и теста (у меня есть 50 функций оценки теста, но упоминается только одна функция оценки теста). У меня 3000 человек, и возможными значениями для характеристики болезни являются disA, disB и disC, где в качестве оценки теста используется дискретная переменная. Болезнь - это мой атрибут класса.
У одного человека может быть до трех различных заболеваний, но только одно значение теста. Моя цель состоит в том, чтобы классифицировать тестовые оценки на основе заболевания (какие тестовые оценки связаны с каким заболеванием). Но здесь проблема заключается в том, что если у одного человека есть три заболевания, то все тестовые оценки будут повторяться три раза. Например, для отдельного aa (со всеми disA, disB и disC) результат теста равен 12. И тогда файл анализа будет выглядеть так
individuals, Disease, Test Score
aa,disA,12,...
aa,disB,12,...
aa,disC,12,...
Это приведет к предвзятому анализу. Существует ли какой-либо алгоритм интеллектуального анализа данных или статистический тест для такого типа данных? Я не могу удалить этих пациентов, потому что они составляют самую большую долю данных.
2 ответа
Почему бы не преобразовать проблему в одноэтапное сопоставление результатов теста с набором заболеваний? Используя ваш пример, в первой строке данных ниже показано "aa" как наличие всех заболеваний, в то время как "bb" имеет только заболевание A.
individuals, DiseaseA, DiseaseB, DiseaseC, Test Score
aa,true,true,true,12
bb,true,false,false,10
Я бы использовал следующий формат, разработанный Хэдли Уикхемом, описанный в reshape
пакет:
http://www.jstatsoft.org/v21/i12
Пример:
individuals, variable, value
aa,disease,disA
aa,disease,disB
aa,disease,disC
aa,testscore,12