Эквивалент Grep и Sed для обработки командной строки XML

Question

Эквивалент Grep и Sed для обработки командной строки XML

При выполнении сценариев оболочки, как правило, данные будут находиться в файлах однострочных записей, таких как CSV. Это действительно просто обрабатывать эти данные с grep а также sed, Но мне часто приходится иметь дело с XML, поэтому мне бы очень хотелось, чтобы скрипт мог получить доступ к этим XML-данным через командную строку. Каковы лучшие инструменты?

150

xml command-line scripting

Источник

user16981 18 сен '08 в 11:36

12 ответов

Решение

Некоторые перспективные инструменты:

nokogiri: парсинг HTML/XML DOM в ruby с использованием селекторов XPath и CSS
hpricot: устарел
fxgrep: использует собственный XPath-подобный синтаксис для запроса документов. Написано на SML, поэтому установка может быть затруднена.
LT XML: инструментарий XML, полученный из инструментов SGML, включая sggrep, sgsort, xmlnorm и другие. Использует собственный синтаксис запроса. Документация очень формальная. Написано на C. LT XML 2 заявляет о поддержке XPath, XInclude и других стандартов W3C.
xmlgrep2: простой и мощный поиск с XPath. Написан на Perl с использованием XML::LibXML и libxml2.
XQSharp: поддерживает XQuery, расширение для XPath. Написано для.NET Framework.
xml-coreutils: набор инструментов Лейрда Брейера, эквивалентный GNU coreutils. Обсуждается интересное эссе о том, что должен включать в себя идеальный инструментарий.
xmldiff: простой инструмент для сравнения двух XML-файлов.
xmltk: похоже, не имеет пакетов в Debian, Ubuntu, Fedora или MacPort, не выпускал с 2007 года и использует непереносимую автоматизацию сборки.

xml-coreutils кажется наиболее документированным и наиболее ориентированным на UNIX.

40

Источник

user16981 18 сен '08 в 11:39

Существует также xml2 а также 2xml пара. Это позволит обычным инструментам редактирования строк обрабатывать XML.

Пример. q.xml:

<?xml version="1.0"?>
<foo>
    text
    more text
    <textnode>ddd</textnode><textnode a="bv">dsss</textnode>
    <![CDATA[ asfdasdsa <foo> sdfsdfdsf <bar> ]]>
</foo>

xml2 < q.xml

/foo=
/foo=   text
/foo=   more text
/foo=   
/foo/textnode=ddd
/foo/textnode
/foo/textnode/@a=bv
/foo/textnode=dsss
/foo=
/foo=    asfdasdsa <foo> sdfsdfdsf <bar> 
/foo=

xml2 < q.xml | grep textnode | sed 's!/foo!/bar/baz!' | 2xml

<bar><baz><textnode>ddd</textnode><textnode a="bv">dsss</textnode></baz></bar>

PS Есть также html2 / 2html,

26

Источник

user266720 22 июн '10 в 22:01

К превосходному списку Джозефа Холстена я добавляю скрипт командной строки xpath, который поставляется с библиотекой Perl XML::XPath. Отличный способ извлечь информацию из файлов XML:

 xpath -q -e '/entry[@xml:lang="fr"]' *xml

25

Источник

user15625 04 мар '09 в 08:12

Вы можете использовать xmllint:

xmllint --xpath //title books.xml

Должен быть в комплекте с большинством дистрибутивов, а также в комплекте с Cygwin.

$ xmllint --version
xmllint: using libxml version 20900

Увидеть:

$ xmllint
Usage : xmllint [options] XMLfiles ...
        Parse the XML files and output the result of the parsing
        --version : display the version of the XML library used
        --debug : dump a debug tree of the in-memory document
        ...
        --schematron schema : do validation against a schematron
        --sax1: use the old SAX1 interfaces for processing
        --sax: do not build a tree but work just at the SAX level
        --oldxml10: use XML-1.0 parsing rules before the 5th edition
        --xpath expr: evaluate the XPath expression, inply --noout

18

Источник

user59087 24 янв '13 в 00:41

Если вы ищете решение для Windows, Powershell имеет встроенную функциональность для чтения и записи XML.

test.xml:

<root>
  <one>I like applesauce</one>
  <two>You sure bet I do!</two>
</root>

Скрипт Powershell:

# load XML file into local variable and cast as XML type.
$doc = [xml](Get-Content ./test.xml)

$doc.root.one                                   #echoes "I like applesauce"
$doc.root.one = "Who doesn't like applesauce?"  #replace inner text of <one> node

# create new node...
$newNode = $doc.CreateElement("three")
$newNode.set_InnerText("And don't you forget it!")

# ...and position it in the hierarchy
$doc.root.AppendChild($newNode)

# write results to disk
$doc.save("./testNew.xml")

testNew.xml:

<root>
  <one>Who likes applesauce?</one>
  <two>You sure bet I do!</two>
  <three>And don't you forget it!</three>
</root>

Источник: https://serverfault.com/questions/26976/update-xml-from-the-command-line-windows

9

Источник

user444917 29 июл '13 в 21:29

Также есть xmlsed & xmlgrep для NetBSD xmltools!

http://blog.huoc.org/xmltools-not-dead.html

8

Источник

user776230 30 май '11 в 12:20

Зависит от того, что именно вы хотите сделать.

XSLT может быть способом пойти, но есть кривая обучения. Попробуйте xsltproc и обратите внимание, что вы можете передать параметры.

6

Источник

user4332 18 сен '08 в 20:41

Д. Богдан поддерживает репозиторий GitHub с открытым исходным кодом, в котором хранится список инструментов командной строки для инструментов структурированного текста, есть раздел для инструментов XML/HTML:

https://github.com/dbohdan/structured-text-tools

5

Источник

user416394 21 сен '19 в 07:38

Есть также saxon-lint из командной строки с возможностью использования XPath 3.0/XQuery 3.0. (Другие инструменты командной строки используют XPath 1.0).

ПРИМЕРЫ:

HTTP / HTML:

$ saxon-lint --html --xpath 'count(//a)' http://stackru.com/q/91791
328

xml:

$ saxon-lint --xpath '//a[@class="x"]' file.xml

4

Источник

user465183 12 янв '15 в 14:48

XQuery может быть хорошим решением. Его (относительно) легко изучить и он является стандартом W3C.

Я бы порекомендовал XQSharp для процессора командной строки.

3

Источник

user19995 30 окт '08 в 23:12

Сначала я использовал xmlstarlet и до сих пор его использую. Когда запрос становится сложным, мне нужна поддержка функций XML xpath2 и xquery, я обращаюсь к xidel http://www.videlibri.de/xidel.html

3

Источник

user2856202 16 мар '17 в 03:21

Эквивалент Grep

Вы можете определить функцию bash, скажем "xp" ("xpath"), которая обертывает некоторый код python3. Чтобы использовать его, вам необходимо установить python3 и python-lxml. Льготы:

регулярное выражение, которого вам не хватает, например, xmllint.
Использовать как фильтр (в конвейере) в командной строке

Его легко и эффективно использовать вот так:

xmldoc=$(cat <<EOF
<?xml version="1.0" encoding="utf-8"?>
<job xmlns="http://www.sample.com/">programming</job>
EOF
)
selection='//*[namespace-uri()="http://www.sample.com/" and local-name()="job" and re:test(.,"^pro.*ing$")]/text()'
echo "$xmldoc" | xp "$selection"
# prints programming

xp () выглядит примерно так:

xp()
{ 
local selection="$1";
local xmldoc;
if ! [[ -t 0 ]]; then
    read -rd '' xmldoc;
else
    xmldoc="$2";
fi;
python3 <(printf '%b' "from lxml.html import tostring\nfrom lxml import etree\nfrom sys import stdin\nregexpNS = \"http://exslt.org/regular-expressions\"\ntree = etree.parse(stdin)\nfor e in tree.xpath('""$selection""', namespaces={'re':regexpNS}):\n  if isinstance(e, str):\n    print(e)\n  else:\n    print(tostring(e).decode('UTF-8'))") <<< "$xmldoc"
}

Sed эквивалент

Рассмотрите возможность использования xq, который дает вам всю мощь "языка программирования" jq. Если у вас установлен python-pip, вы можете установить xq с помощью pip install yq, тогда в приведенном ниже примере мы заменяем "Сохранить учетные записи" на "Сохранить учетные записи 2":

xmldoc=$(cat <<'EOF'
<resources>
    <string name="app_name">Keep Accounts</string>
    <string name="login">"login"</string>
    <string name="login_password">"password："</string>
    <string name="login_account_hint">input to login</string>
    <string name="login_password_hint">input your password</string>
    <string name="login_fail">login failed</string>
</resources>
EOF
)
echo "$xmldoc" | xq '.resources.string = ([.resources.string[]|select(."#text" == "Keep Accounts") ."#text" = "Keep Accounts 2"])' -x

1

Источник

user7612826 14 мар '20 в 19:03

Решите, какие операции вы хотите выполнять с файлами XML, и создайте сценарий (возможно, на Python, Perl), который предоставляет эту функциональность через аргументы для использования сценариями оболочки.

0

Источник

user6899 18 сен '08 в 12:12

JEdit имеет плагин под названием "XQuery", который обеспечивает функциональность запросов для документов XML.

Не совсем командная строка, но она работает!

-1

Источник

user15480 18 сен '08 в 11:47

Другие вопросы по тегам xml command-line scripting