Как я могу вывести ближайших родственников из чужих родословных, основываясь на семени дальних родственников?
Я взял один из многочисленных тестов ДНК в Интернете, и он выявил генетических родственников, основанных на ДНК, но большинство из этих родственников, по крайней мере, 3-й кузены. Эти другие пользователи имеют свои родословные онлайн, к которым я могу получить доступ как данные JSON.
Я усыновлен, поэтому "наземная правда" для меня неизвестна.
Но мне нужен какой-то алгоритм для обработки этих данных. Самое простое, что я могу придумать, - это найти наиболее распространенные фамилии в данных, но это не кажется слишком сложным. Я хотел бы еще несколько предложений или ссылок на соответствующие обсуждения или алгоритмы.
Я не хочу обсуждать, стоит ли мне это делать. Я не уверен на 100%, заинтересован ли я в этом для собственной выгоды или для большего количества академических упражнений.
1 ответ
Оценка максимального правдоподобия является одним из стандартных подходов к решению этой проблемы. После того, как вы собрали семейные деревья, вычислите, насколько вероятно, что кто-то в дереве получит результаты ваших тестов (свободно делая предположения о независимости, чтобы упростить математику). Затем выполните итерацию по всем (надеюсь, это не займет много времени) и сообщите о k самых больших вероятностях.
Сложной частью здесь является получение разумных оценок вероятности. Вот один из подходов; Понятия не имею, хорошо ли это. Ваше семейное "дерево" представляет собой ориентированный ациклический (надеюсь, что ни у кого нет машины времени) граф, в котором каждый узел имеет ровно ноль или два предшественника. Выполните итерацию по узлам в топологическом (т.е. вероятном, хронологическом) порядке. Для узлов с нулевым предшественником инициализируйте "хромосому", состоящую из 2k случайных битов, сгруппированных в k пар 1-битных аллелей (не знаете, как установить k; может быть, тысяча?). Для узлов с двумя предшественниками для каждой из k пар сгенерируйте хромосому, выбрав один из аллелей матери и один из отцов. В конце концов, вы можете получить генетическое сходство через расстояния Хэмминга. Вам нужно будет найти соответствие между результатами теста и расстояниями, возможно, путем симуляции / проработки математики для горшечных примеров третьих кузенов и т. Д.