Granges - (слева) присоединиться

У меня есть два объекта Granges, и я хотел бы, чтобы они были объединены для объединения обоих GRanges, даже если метаданные не существуют в обоих объектах.

> t
GRanges object with 2 ranges and 5 metadata columns:
   seqnames         ranges strand |       pvalue      qvalue meth.diff           gc.X  gc.score
      <Rle>      <IRanges>  <Rle> |    <numeric>   <numeric> <numeric>      <GRanges> <numeric>
[1]       MT   [ 708,  708]      + | 2.898639e-04 0.007018699 0.2231039     MT:706-710        80
[2]       MT   [1147, 1147]      - | 6.043240e-05 0.003882324 0.2243177   MT:1146-1150        80
-------
seqinfo: 1 sequence from an unspecified genome; no seqlengths


> s
GRanges object with 1 range and 6 metadata columns:
  seqnames     ranges strand |       pvalue      qvalue meth.diff      gc.X     gc.name  gc.score
       <Rle>  <IRanges>  <Rle> |    <numeric>   <numeric> <numeric> <GRanges> <character> <numeric>
[1]       MT [708, 708]      + | 0.0002898639 0.007018699 0.2231039  MT:708:+  rs28412942         0
-------
seqinfo: 1 sequence from an unspecified genome; no seqlengths

Я хотел бы иметь в конце:

> combined
GRanges object with 2 ranges and 5 metadata columns:
   seqnames         ranges strand |       pvalue      qvalue meth.diff           gc.X  gc.score  gc.name
      <Rle>      <IRanges>  <Rle> |    <numeric>   <numeric> <numeric>      <GRanges> <numeric>
[1]       MT   [ 708,  708]      + | 2.898639e-04 0.007018699 0.2231039     MT:706-710        80   rs28412942
[2]       MT   [1147, 1147]      - | 6.043240e-05 0.003882324 0.2243177   MT:1146-1150        80   NA
-------
seqinfo: 1 sequence from an unspecified genome; no seqlengths

Все методы, которые я пробовал, запрашивают одинаковое количество столбцов. Я могу попытаться создать необходимые столбцы и заполнить их с помощью NA, но мне кажется, что это немного излишне, я уверен, что метод существует, но я не могу его найти:/

Спасибо!

2 ответа

Это легко сделать с помощью findOverlaps

library(GenomicRanges)  
m <- findOverlaps(s, t)

# Add gc.name to subject GRanges (i.e. left join)
mcols(t)$gc.name <- NA
mcols(t)[subjectHits(m), "gc.name"] = mcols(s)[queryHits(m), "gc.name"]
t
#GRanges object with 2 ranges and 6 metadata columns:
#      seqnames       ranges strand |    pvalue     qvalue meth.diff        gc.X
#         <Rle>    <IRanges>  <Rle> | <numeric>  <numeric> <numeric> <character>
#  [1]       MT [ 708,  708]      + | 0.3361535 0.06058539 0.4743142           a
#  [2]       MT [1147, 1147]      - | 0.4637233 0.19743361 0.3010486           b
#       gc.score     gc.name
#      <numeric> <character>
#  [1]        80  rs28412942
#  [2]        80        <NA>
#  -------
#  seqinfo: 1 sequence from an unspecified genome; no seqlengths

Пример данных

set.seed(2018)
t <- GRanges(
    seqnames = c("MT", "MT"),
    IRanges(start = c(708, 1147), end = c(708, 1147)),
    strand = c("+", "-"),
    pvalue = runif(2),
    qvalue = runif(2),
    meth.diff = runif(2),
    gc.X = letters[1:2],
    gc.score = rep(80, 2))

set.seed(2018)
s <- GRanges(
    seqnames = "MT",
    IRanges(start = 708, end = 708),
    strand = "+",
    pvalue = runif(1),
    qvalue = runif(1),
    meth.diff = runif(1),
    gc.X = letters[3],
    gc.name = "rs28412942",
    gc.score = 0)

Форма ответа user6530970 не будет работать в случае нескольких совпадений. findOverlapsправильно идентифицирует два перекрытия, но, поскольку входной запрос имеет только одну строку, вторая часть с mcolsназначает только второе из перекрытий.

"Неудачный" тест:

      set.seed(2018)
t <- GRanges(
  seqnames = "MT",
  IRanges(start = 708, end = 708),
  strand = "+",
  pvalue = runif(1),
  qvalue = runif(1),
  meth.diff = runif(1),
  gc.X = letters[1],
  gc.score = rep(80, 1))
t

# GRanges object with 1 range and 5 metadata columns:
#       seqnames    ranges strand |            pvalue            qvalue          meth.diff        gc.X  gc.score
#          <Rle> <IRanges>  <Rle> |         <numeric>         <numeric>          <numeric> <character> <numeric>
#   [1]       MT       708      + | 0.336153471143916 0.463723270455375 0.0605853858869523           a        80
#   -------
#   seqinfo: 1 sequence from an unspecified genome; no seqlengths

set.seed(2018)
s <- GRanges(
  seqnames = "MT",
  IRanges(start = c(708, 708), end = c(708, 708)),
  strand = c("+", "+"),
  pvalue = runif(2),
  qvalue = runif(2),
  meth.diff = runif(2),
  gc.X = letters[3:4],
  gc.name = c("rs28412942", "rs28412942dupl"),
  gc.score = 0)
s

# GRanges object with 2 ranges and 6 metadata columns:
#       seqnames    ranges strand |            pvalue             qvalue         meth.diff        gc.X        gc.name  gc.score
#          <Rle> <IRanges>  <Rle> |         <numeric>          <numeric>         <numeric> <character>    <character> <numeric>
#   [1]       MT       708      + | 0.336153471143916 0.0605853858869523 0.474314193474129           c     rs28412942         0
#   [2]       MT       708      + | 0.463723270455375  0.197433612542227 0.301048603840172           d rs28412942dupl         0
#   -------
#   seqinfo: 1 sequence from an unspecified genome; no seqlengths

library(GenomicRanges)  
m <- findOverlaps(s, t, type = "any", select = "all")
m

#Hits object with 2 hits and 0 metadata columns:
#      queryHits subjectHits
#      <integer>   <integer>
#  [1]         1           1
#  [2]         2           1
#  -------
#  queryLength: 2 / subjectLength: 1

# Add gc.name to subject GRanges (i.e. left join)
mcols(t)$gc.name <- NA
mcols(t)[subjectHits(m), "gc.name"] <- mcols(s)[queryHits(m), "gc.name"]
t

# GRanges object with 1 range and 6 metadata columns:
#       seqnames    ranges strand |            pvalue            qvalue          meth.diff        gc.X  gc.score        gc.name
#          <Rle> <IRanges>  <Rle> |         <numeric>         <numeric>          <numeric> <character> <numeric>    <character>
# [1]       MT       708      + | 0.336153471143916 0.463723270455375 0.0605853858869523           a        80 rs28412942dupl
# -------
# seqinfo: 1 sequence from an unspecified genome; no seqlengths

В итоге я использовал plyranges join_overlap_left_directed (или join_overlap_left), а затем отфильтровал все столбцы, которые мне нужно было сохранить.

раствор плиранжей:

      set.seed(2018)
t <- GRanges(
  seqnames = c("MT",  "MT"),
  IRanges(start = c(708, 800), end = c(708, 800)),
  strand = c("+", "-"),
  pvalue = runif(2),
  qvalue = runif(2),
  meth.diff = runif(2),
  gc.X = letters[1:2],
  gc.score = rep(80, 2))

set.seed(2018)
s <- GRanges(
  seqnames = "MT",
  IRanges(start = c(708, 708), end = c(708, 708)),
  strand = c("+", "+"),
  pvalue = runif(2),
  qvalue = runif(2),
  meth.diff = runif(2),
  gc.X = letters[3:4],
  gc.name = c("rs28412942", "rs28412942dupl"),
  gc.score = 0)

library(plyranges)
t <- join_overlap_left_directed(t, s)
t

# GRanges object with 3 ranges and 11 metadata columns:
#       seqnames    ranges strand |          pvalue.x           qvalue.x       meth.diff.x      gc.X.x gc.score.x          pvalue.y           qvalue.y       meth.diff.y      gc.X.y        gc.name gc.score.y
#          <Rle> <IRanges>  <Rle> |         <numeric>          <numeric>         <numeric> <character>  <numeric>         <numeric>          <numeric>         <numeric> <character>    <character>  <numeric>
#   [1]       MT       708      + | 0.336153471143916 0.0605853858869523 0.474314193474129           a         80 0.336153471143916 0.0605853858869523 0.474314193474129           c     rs28412942          0
#   [2]       MT       708      + | 0.336153471143916 0.0605853858869523 0.474314193474129           a         80 0.463723270455375  0.197433612542227 0.301048603840172           d rs28412942dupl          0
#   [3]       MT       800      - | 0.463723270455375  0.197433612542227 0.301048603840172           b         80              <NA>               <NA>              <NA>        <NA>           <NA>       <NA>
#   -------
#   seqinfo: 2 sequences from an unspecified genome; no seqlengths

PS Прошу прощения за добавление этого в качестве ответа, но я не могу комментировать из-за своей низкой репутации.

Другие вопросы по тегам