Картирование мутации в месте хромосомы с помощью mapreduce/PIG или Disco

Цель: сопоставить местоположение мутации из файла1 с регионом или объектом из второго файла. Для этого вам нужно убедиться, что хромосома (chr1) и нити (+/-) одинаковы, прежде чем сравнивать местоположение хромосомы от файла 1 до областей файла2.

Вопрос: Как использовать mapreduce или Disco для отображения одного местоположения в регионе. Ака сформулировать местоположение -> область хромосомы в методе mapreduce?

Описание: у меня есть два файла среднего размера (10 ГБ) и два типа файлов, которые я хотел обработать. У меня уже есть эти файлы, проанализированные в базовом Python, но в будущем мне, вероятно, придется анализировать много более похожих файлов, поэтому я хотел попробовать это с mapreduce (hadoop/Pig, чтобы быть более конкретным) или Disco, чтобы изучить.

В то время как я могу запускать узлы в кластере EC2, в идеале - один кластерный хэдпуп (да, я знаю, что это побеждает цель) или что-то вроде Disco или Sparc.

Мне нравится идея использовать Pig, потому что это сократит процесс до простой обработки файла из файлов.csv, но я понятия не имею, как использовать mapreduce для сопоставления чего-либо с регионом вместо просто пары ключ / значение

Вот наглядное представление о том, о чем я думал: о чем думал. http://oi39.tinypic.com/34q38qs.jpg

Информация о файле:

  1. Первый файл - мутации SNP рака TCGA. Некоторые важные функции включают в себя

    • Расположение хромосомы
    • Номер хромосомы
    • нитка
    • идентификатор образца
    • остальное не так важно
  2. 3'последовательность UTR.

    • Место начала хромосомы: int
    • Конечное местоположение хромосомы: int
    • Номер хромосомы: chrX
    • прядь +/-
    • идентификатор гена
    • остальное не так важно

примеры файлов здесь: два примера файлов

Наконец, Python - мой язык для этого, если это имеет значение.

0 ответов

Другие вопросы по тегам