Алгоритмы выбора признаков, используемые при фильтрации значимых однонуклеотидных полиморфизмов (SNP) для заданного результата
Я немного новичок в анализе типа исследования ассоциации генома (GWAS). В одном из моих проектов мне нужно выбрать наиболее значимые SNP (не семьи, а отдельные SNP) для заданной переменной результата (например:- Наличие события сердечного приступа, которое кодируется как 0 или 1). В моем наборе данных SNP были закодированы как 0,1 или 2.
Обратите внимание, что у меня 700000+ SNP, а также еще 30 переменных в базе данных и 4800+ участников. Мы оставим остальные 30 переменных в модели, поскольку наша цель - выбрать SNP для выходной переменной, скорректированной с учетом этих переменных. К тому же у нас есть время и на мероприятие.
Я знаю, что стандартным методом в этом случае было бы запустить регрессию Кокса для выходной переменной для каждого SNP за раз (как в цикле) с другими 30 переменными и выбрать SNP, которые имеют наименьшее значение p (с использованием порогового значения). . Однако, этот подход не эффективен и займет несколько месяцев , чтобы завершить в обычный компьютер.
Поэтому мне просто интересно, какие методы выбора функций используются в литературе в этой области, и было бы здорово, если бы вы могли разместить здесь несколько ссылок.
Очень признателен за вашу помощь. Сан