Python/R: генерировать фрейм данных из XML, когда не все узлы содержат все переменные?
Рассмотрим следующее XML
пример
library(xml2)
myxml <- read_xml('
<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>
')
Здесь я хотел бы получить (R или Pandas) фрейм данных из этого XML, который содержит столбцы name
а также hobby
,
Однако, как вы видите, существует проблема выравнивания, потому что hobby
отсутствует во втором узле, и у Джона есть два хобби.
в R я знаю, как извлечь конкретные значения по одному, например, используя xml2
следующее:
myxml%>%
xml_find_all("//name") %>%
xml_text()
myxml%>%
xml_find_all("//hobby") %>%
xml_text()
но как я могу правильно выровнять эти данные в кадре данных? То есть, как я могу получить фрейм данных следующим образом (обратите внимание, как я присоединяюсь с |
два увлечения Джона):
# A tibble: 2 × 3
name hobby skill
<chr> <chr> <chr>
1 John tennis|golf python
2 Robert <NA> R
В R я бы предпочел решение с использованием xml2
а также dplyr
, В Python я хочу закончить с фреймом данных Pandas. Кроме того, в моем xml есть еще много переменных, которые я хочу проанализировать. Я хотел бы решение, которое позволяет пользователю анализировать дополнительные переменные, не слишком путаясь с кодом.
Спасибо!
РЕДАКТИРОВАТЬ: спасибо всем за эти отличные решения. Все они были действительно хороши, с большим количеством деталей, и было трудно подобрать лучший. Еще раз спасибо!
4 ответа
pandas
import pandas as pd
from collections import defaultdict
import xml.etree.ElementTree as ET
xml_txt = """<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>"""
etree = ET.fromstring(xml_txt)
def obs2series(o):
d = defaultdict(list)
[d[c.tag].append(c.text.strip()) for c in o.getchildren()];
return pd.Series(d).str.join('|')
pd.DataFrame([obs2series(o) for o in etree.findall('obs')])
hobby name skill
0 tennis|golf John python
1 NaN Robert R
Как это устроено
- построить дерево элементов из строки. В противном случае сделать что-то вроде
et = ET.parse('my_data.xml')
etree.findall('obs')
возвращает список элементов внутриxml
структура, которая'obs'
теги- Я передаю каждый из них
pd.Series
конструкторobs2series
- В
obs2series
Я перебираю все дочерние узлы в одном'obs'
элемент. defaultdict
по умолчаниюlist
это означает, что я могу добавить значение, даже если ключ не был виден раньше.- Я заканчиваю со словарем списков. Я передаю это
pd.Series
чтобы получить серию списков. - С помощью
pd.Series.str.join('|')
Я преобразую это в последовательность строк, как я хотел. - Мое понимание списка в начале, которое зацикливалось на наблюдениях, теперь является списком серий и готово для передачи
pd.DataFrame
конструктор.
Общее решение R, которое не требует жесткого кодирования переменных.
С помощью xml2
и Тидиверс purrr
:
library(xml2)
library(purrr)
myxml %>%
xml_find_all('obs') %>%
# Enter each obs and return a df
map_df(~{
# Scan names
node_names <- .x %>%
xml_children() %>%
xml_name() %>%
unique()
# Remember ob
ob <- .x
# Enter each node
map(node_names, ~{
# Find similar nodes
node <- xml_find_all(ob, .x) %>%
xml_text(trim = TRUE) %>%
paste0(collapse = '|') %>%
'names<-'(.x)
# ^ we need to name the element to
# overwrite it with its 'sibilings'
}) %>%
# Return an 'ob' vector
flatten()
})
#> # A tibble: 2 × 3
#> name hobby skill
#> <chr> <chr> <chr>
#> 1 John tennis|golf python
#> 2 Robert <NA> R
Что оно делает:
- Это входит в каждый
obs
найдите и сохраните имена узлов в этих объектах. - Для каждого узла найдите все похожие узлы в
obs
сверните их и сохраните в списке. - Сглаживает список, перезаписывая элементы с тем же именем.
rbind
(подразумевается вmap_df()
) каждый "плоский" список в результатеdata.frame
,
Данные:
myxml <- read_xml('
<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>
')
XML
Создайте функцию, которая может обрабатывать отсутствующие или несколько узлов, а затем примените это к obs
узлы. Я добавил столбец id, чтобы вы могли видеть, как использовать xmlGetAttr
тоже (используйте "."
для узла OBS и ведущих "."
на других узлах, так что его относительно этого текущего узла в наборе).
xpath2 <-function(x, ...){
y <- xpathSApply(x, ...)
ifelse(length(y) == 0, NA, paste(trimws(y), collapse=", "))
}
obs <- getNodeSet(doc, "//obs")
data.frame( id = sapply(obs, xpath2, ".", xmlGetAttr, "ID"),
name = sapply(obs, xpath2, ".//name", xmlValue),
hobbies = sapply(obs, xpath2, ".//hobby", xmlValue),
skill = sapply(obs, xpath2, ".//skill", xmlValue))
id name hobbies skill
1 a John tennis, golf python
2 b Robert <NA> R
xml2
Я не пользуюсь xml2
очень часто, но, возможно, получить obs
узлы, а затем применить xml_find_all
если есть дубликаты тегов вместо использования xml_find_first
,
obs <- xml_find_all(myxml, "//obs")
lapply(obs, xml_find_all, ".//hobby")
data_frame(
name = xml_find_first(obs, ".//name") %>% xml_text(trim=TRUE),
hobbies = sapply(obs, function(x) paste(xml_text( xml_find_all(x, ".//hobby"), trim=TRUE), collapse=", " ) ),
skill = xml_find_first(obs, ".//skill") %>% xml_text(trim=TRUE)
)
# A tibble: 2 x 3
name hobbies skill
<chr> <chr> <chr>
1 John tennis, golf python
2 Robert R
Я проверил оба метода, используя medline17n0853.xml
файл в NCBI ftp. Это файл размером 280 МБ с 30 000 узлов PubmedArticle, а пакет XML занял 102 секунды для анализа опубликованных идентификаторов, журналов и объединения нескольких типов публикаций. Код xml2 работал в течение 30 минут, а затем я убил его, так что это может быть не лучшим решением.
В R, я бы, наверное, использовал
library(XML)
lst <- xmlToList(xmlParse(myxml)[['/data']])
(df <- data.frame(t(sapply(lst, function(x) {
c(x['name'], hobby=paste0(x[which(names(x)=='hobby')], collapse="|"))
}))) )
# name hobby
# 1 John tennis | golf
# 2 Robert
и, возможно, сделать полировку, используя df[df==""] <- NA
а также trimws()
удалить пробелы.
Или же:
library(xml2)
library(dplyr)
`%|||%` <- function (x, y) if (length(x)==0) y else x
(df <- data_frame(
names = myxml %>%
xml_find_all("/data/obs/name") %>%
xml_text(trim=TRUE),
hobbies = myxml %>%
xml_find_all("/data/obs") %>%
lapply(function(x) xml_text(xml_find_all(x, "hobby"), T) %|||% NA_character_)
))
# # A tibble: 2 × 2
# names hobbies
# <chr> <list>
# 1 John <chr [2]>
# 2 Robert <chr [1]>